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O’Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研 究 和 会 议 等 方式 传 
播 创 新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推 
动 者 。 超 级 极 客 们 正在 开创 看 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 
通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 技 
eae O'Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 


O'Reilly 为 软件 开发 人 员 带 来 昔 命 性 的 “动物 书 ” 创建 第 一 个 商业 网 站 
(GNN) ; 组 织 了 影响 深远 的 开放 源 代 码 峰 会 ， 以 至 于 开源 软件 运动 
以 此 命名 ; 创立 了 Make 洒 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 公司 一 
如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O’Reilly 的 会 议和 峰会 集 
聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领 笛 ， 共 同 描绘 出 开创 新 产业 的 
革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O’Reilly 现 在 还 将 先锋 专 
家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 羡 通过 书籍 出 版 ， 在 线 服务 
或 者 面授 课程 ， 每 一 项 O'Reily 的 产品 都 反映 了 公司 不 可 动 播 的 理念 

信息 是 激发 创新 的 力量 。 


业界 评论 


“O’Reilly Radr Ñ ZA O H o” 


Wired 


“O'Reilly 赁 借 一 系列 ( 真 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 
万 美元 的 业务 。 


Business 2.0 


“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典 

—CRN 
“一 本 O’Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 

切实 地 按 Yogi Berra 的 建议 去 做 了 : WRI LIBERO, h 

BS (AK) 。’ 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 
一 内 即 逝 的 机 会 尽管 大 路 也 不 错 。” 


Linux Journal 


译 者 序 


随 看 AlphaGo 在 人 机 大 战 中 一 举 成 如， 天 于 机 融 学 习 的 研究 开始 广 受 天 
注 ， 数 据 科学 家 也 一 跃 成 为 "21 世纪 最 性 感 的 职业 ”。 关 于 机 器 学 习 和 
神经 网 络 的 广泛 应 用 虽然 兴起 不 入 ， 但 是 对 这 两 个 密切 关联 的 领域 的 
研究 其 实 已 经 持续 了 好 几 十 年 ， 早 已 形成 了 系统 化 的 知识 体系 。 对 于 
想 要 蹄 入 机 紫 学 习 领 域 的 初学 首 而 言 ， 理 论 知识 的 获取 并 非 难事 。 


本 书 作 者 Aurélien Gkron 曾 经 是 谷歌 工程 师 ， 在 2013 年 至 2016 年 ， 主 导 
了 YouTube 的 视频 分 类 工程 ， 拥 有 丰富 的 机 器 学 习 项 目 经 验 。 作 者 的 写 
作 初 训 是 希望 从 实践 出 发 ， 手 把 手 地 帮助 开发 者 从 零 开始 搭建 起 一 个 
神经 网 络 。 这 也 正 构成 了 本 书 区 别 于 其 他 机 器 学 习 教 程 的 最 重要 的 特 
质 不 再 偏向 于 原理 研究 的 角度 ， 而 是 从 开发 者 的 实践 角度 出 发 ， 
在 动手 写 代 码 的 过 程 中 ， 循 序 渐进 地 了 解 机 器 学 习 的 理论 知识 和 工具 
的 实践 技巧 。 对 于 想 要 快速 上 手机 絮 学 习 的 开发 者 来 说 ， 本 书 不 渭 为 
一 个 非常 值得 尝试 的 起 点 项 目 。 


本 书 主要 分 为 两 个 部 分 。 第 一 部 分 为 第 1~8 章 ， 涵 盖 机 器 学 习 的 基础 
理论 知识 和 基本 算法 一 一 从 线性 回归 到 随机 森林 等 ， 帮 助 读者 掌握 
Scikit-Learn 的 常用 方法 ， 第 二 部 分 为 第 9~16 章 ， 探 讨 深度 学 习 和 常用 
框架 TensorFlow， 一 步 一 个 脚印 地 带领 读者 使 用 TensorFlow 搭 建 和 训练 
深度 神经 网 络 ， 以 及 卷 积 神经 网 络 。 


书 中 涉及 不 少数 学 公式 ， 作 者 对 抽象 的 公式 痛 后 的 含义 也 都 一 一 做 出 
了 阐释 ， 因 此 即便 是 对 数学 不 敏感 的 初学 者 ， 也 同样 能 够 理解 机 器 学 
习 任务 的 实质 。 


书 中 所 涉及 的 专业 术语 与 概念 较 多 ， 部 分 概念 及 术语 尚 无 公认 的 中 文 
译 读 ， 因 此 我 们 较 多 地 参考 了 网 络 上 和 研究 论文 中 第 用 的 译 法 ， 帮 有 
不 适合 读者 朋友 的 术语 ， 可 根据 原 词 确认 其 原始 词 意 。 在 翻译 过 程 中 
虽然 力求 准确 地 反映 原著 内 容 ， 但 由 于 译 者 水 平 有 限 ， 如 有 错漏 之 
处 ， 尽 请 读者 批评 指正 。 


本 书 译 者 均 来 自 于 ThoughtWorks 咨 询 公 司 ， 王 静 源 翻译 了 第 1 一 8 章 ， 
页 玮 翻译 了 第 13~16 划 ， 边 莓 翻译 了 第 11 章 和 第 12 章 ， 印 俊 涛 翻译 了 
第 9 章 和 人 第 10 章 ， 并 对 全 书 译文 进行 校对 和 最 后 定稿 。 

最 后 要 感谢 华章 公司 的 编辑 ， 他 们 为 保证 本 书 的 质量 做 出 了 大 量 的 编 
辑 和 校正 工作 ， 在 此 深 表 谢意 。 


译 者 
2018 年 3 月 
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20064, Geoffrey Hinton 等 人 发 表 了 一 篇 论文 由， 展示 了 如 何 训练 能 够 
高 精度 (>98%) 识别 手写 数字 的 深度 神经 网 络 。 他 们 将 这 种 技术 称 
为 < 深度 学 习 ”。 在 当时 ， 深 度 神经 网 络 的 训练 被 普遍 认为 是 不 可 能 

的 。 这 篇 论文 ! 半 重 新 激 起 了 科学 界 的 兴趣 ， 不 久之 后 ， 许 多 新 的 论文 
展示 了 深度 学 习 不 仅 是 可 行 的 ， 而 且 (在 超级 计算 能 力 和 大 数据 的 帮 
助 下 ) 能 够 取得 令 人 瞩目 的 成 就 ， 是 其 他 机 器 学 习 技 术 所 难以 企及 

的 。 这 种 热情 很 快 扩展 到 机 妖 学 习 相 关 的 许多 其 他 领域 。 


历经 十 年 的 快速 发 展 ， 机 器 学 习 已 经 征服 了 整个 行业 。 它 已 经 成 为 众 

多 高 科技 产品 中 的 墨 科技 核心 : 对 你 的 网 络 搜索 结 采 进行 排名 ， 实 现 

智能 手机 的 语音 识别 ， 为 你 推荐 视频 ， 打 败 世 界 围棋 冠军 。 在 你 意识 

到 之 前 ， 它 甚至 会 要 驶 你 的 汽车 。 

你 的 项 目 中 的 机 器 学 习 

你 已 对 机 器 学 习 充 满 了 兴趣 ， 并 迫 不 及 答 想 要 投入 其 中 了 吧 ? 

P a a 
? 

或 者 你 们 公司 有 大 量 的 数据 〈 用 户 日 志 、 财 务 数据 、 产 品 数 据 、 机 器 

传 感 需 数据 、 热 线 数据 、HR 报 告 等 ) ， 如 果 知 道 去 哪儿 找 ， 你 会 挖掘 

出 一 些 隐藏 的 宝石 ， 比 如 : 

. 细 分 客户 群 ， 并 为 每 个 群体 设置 最 佳 的 市 场 策略 

.基于 相似 度 来 为 每 个 顾客 推荐 产品 

检测 哪些 交易 最 有 可 能 是 欺诈 性 的 

:预测 下 一 年 的 收入 

.其 他 (https://www.kaggle.com/wiki/DataScienceUseCases ) 


不 论 原因 是 什么 ， 你 已 经 下 害 决 心 来 学 习 机 右 学 习 并 在 目 己 的 项 目 中 
实现 它 。 


目标 和 方法 


本 书 假设 你 对 机 器 学 习 儿 乎 一 无 所 知 。 本 书 的 目标 是 拓 供 给 你 实现 从 
数据 中 学 习 的 程序 时 所 需 的 概念 、 直 觉 和 工具 。 

我 们 会 覆盖 很 多 技术 ， 从 最 简单 、 最 常用 的 【比如 线性 回归 ) 到 一 些 
经 党 能 说 得 比赛 的 深度 学 习 技术 。 


我 们 将 使 用 真正 生产 就绪 的 Python 框 染 中 的 算法 ， 而 不 古 实现 每 个 算法 
的 玩具 版 本 : 


‘Scikit-Learn (_http://scikit-learn.org/) 非常 易 用 ， 而 且 已 经 很 高 效 地 实 
中 的 众多 算法 ， 所 以 它 是 学 习 机 器 学 习 的 一 个 很 好 的 着 


.TensorFlow (http://tensorflow.ore/) 是 使 用 数据 流 图 进行 分 布 式 数值 
计算 的 更 复杂 的 库 。 通 过 在 数 千 个 多 GPU 服务 硕 上 分 配 计 算 ， 可 以 有 
效 地 训练 和 运行 非常 大 的 神经 网 络 。TensorFlow 由 Google 创 建 ， 用 以 文 
持 其 大 型 机 器 学 习 应 用 程序 。 它 已 于 2015 年 11 月 开放 源 代码 。 


本 书 更 倾向 于 动手 的 方式 ， 通 过 可 以 正常 运行 的 具体 实例 和 非常 少 的 
理论 的 方式 来 帮助 读者 逐步 建立 对 机 器 学 习 的 直觉 。 虽 然 你 可 以 在 不 
上 机 的 情况 下 阅读 本 书 ， 但 我 们 强烈 建议 你 通过 在 线 运行 Jupyter 笔 记 
本 中 代码 示例 (https://github.com/ageron/handson-ml ) 的 方式 学 习 。 


THREE 


本 书 假 设 你 有 一 定 的 Python 编程 经 验 ， 而 且 熟 悉 Python 中 主流 的 科学 计 
算 库 ， 例 如 Numpy (http:/numpy.org/) ` Pandas ( 


http://pandas.pydata.org/,) ， 还 有 Matplotlib (http:/matplotlib.org/) ° 


另外 ， 如 果 你 想 要 深入 理解 低层 的 原理 ， 则 需要 大 学 水 平 的 数学 知识 
( 微 积分 、 线 性 代数 、 概 率 论 和 统计 学 ) 。 


如 采 你 从 没有 用 过 Jupyter， 第 2 章 将 指导 你 完成 安 效 和 基本 操作 。 它 是 
你 工具 箱 中 一 个 很 好 的 工具 。 


如 果 你 不 吕 悉 Python 的 科学 库 ，Jupyter 笔 记 本 里 包括 了 一 些 教程 ， 另 外 
其 中 还 有 一 个 天 于 线性 代数 的 快速 数学 教程 。 


学 习 路 线 图 
本 书 由 两 部 分 组 成 。 第 一 部 分 (机 器 学 习 基 础 ) 由 下 列 主题 组 成 : 


-机 天 学 习 征 什么 ? 它 想 要 解决 的 问题 是 什么 ? Here ARS, ER 
的 分 类 和 基础 概念 有 哪些 ? 


ARAINA 2 > H BASE ob RE? 


- 拟 合 数据 进行 学 习 。 


ALBARN EK ° 
处理、 清洗 和 准备 数据 。 
-特征 选择 及 特征 工程 。 

-选择 模型 并 使 用 交叉 验证 来 调整 超 参 数 。 


-机 器 学 习 的 主要 挑战 ， 拟 合 不 足 和 过 度 拟 合 (偏差 /方差 权衡 ) 。 
:降低 训练 数据 的 维度 以 对 抗 维度 的 灾难 。 


“Bre LAS: 线性 回归 和 多 项 式 回归 、 人 逻辑 回归 、k- 近 邻 、 文 
持 向 量 机 、 决 策 树 、 随 机 森林 和 集成 算法 。 


第 二 部 分 (神经 网 络 和 深度 学 习 ) 由 下 列 主题 组 成 : 
:神经 网 络 是 什么 ?它们 擅长 处 理 哪些 问题 ? 
.使 用 TensorFlow 构 建 和 训练 神经 网 络 。 


.最 重要 的 神经 网 络 架构 : 前 馈 神 经 网 络 、 卷 积 网 络 、 递 归 网 络 、 长 期 
短期 记忆 (LSTM) 网 络 和 自动 编码 器 。 


训练 深度 神经 网 络 的 技术 。 
.为 海量 数据 集 进行 扩容 。 
.强化 学 习 。 


第 一 部 分 基本 上 都 基于 Scikit-Learn， 而 第 二 部 分 则 基于 TensorFlow ° 


an 不 要 太 急 于 跳 入 深水 区 : PREECE ED Las FO] POS 
的 领域 之 一 ， 你 应 该 首先 掌握 基础 知识 。 而 且 ， 大 多 数 问题 可 以 用 较 
简单 的 技术 很 好 地 解决 ， 如 随机 森林 和 集成 算法 (在 第 一 部 分 讨 

论 ) 。 如 果 你 拥有 足够 的 数据 、 计 算 能 力 和 耐心 ， 深 度 学 习 非 常 适合 
复杂 的 问题 ， 如 图 像 识别 、 语 音 识别 和 自然 语言 处 理 。 


关于 机 器 学 习 的 资料 有 很 多 ，Andrew Ng 在 Coursera 上 的 机 器 学 习 课 程 
( https://www.coursera.org/learn/machine-learning/) 和 Geoffrey Hinton 
的 神经 网 络 和 深度 学 习 课 程 (https://www.coursera.org/course/neuralnets 


) 都 很 棒 ， 虽 然 学 习 起 来 都 需要 投入 大 量 的 时 间 〈 比 如 几 个 月 ) 


还 有 许多 天 于 机 屁 学 习 的 有 趣 网 站 ， 当 然 还 包括 很 出 色 的 Scikit-Learn 
用 户 指 南 (http://scikit-learn.org/stable/user_guide.html ) 。 也 可 以 试 试 
Dataquest (https:/www.dataquestio/ ) ， 它 提供 了 非常 好 的 交互 式 教 
程 ， 还 有 一 些 机 器 学 习 的 博客 ， 如 Quora (http:/goo.gUGwtU3A ) 上 列 
出 的 。 最 后 ， 深 度 学 习 网 站 有 一 个 很 好 的 资源 列表 ( 
http://deeplearning.net/) 便于 你 学 习 更 多 知识 。 


当然 ， 还 有 很 多 天 于 机 器 学 习 的 入 门 书 籍 ， 具 体 来 说 : 
-Joel Grus 著 的 Data Science from Scratch (O’Reilly 出 版 。 本 书 介 绍 了 


机 器 学 习 的 基础 知识 ， 并 用 纯 Python 实 现 了 一 些 主要 算法 (顾名思义 ， 
从 零 开始 ) 。 


‘Stephen Marsland 著 的 Machine Learning: An Algorithmic Perspective 

(Chapman & Hall 出 版 ) 。 本 书 是 对 机 器 学 习 的 一 个 很 好 的 介绍 ， 洱 盖 
ee oo 书 中 的 实例 使 用 了 Python 代码 (也 是 从 零 开 始 ， 但 使 用 
NumPy 


-Sebastian Raschka 著 的 Python Machine Learning (Packt 出 版 ，。 本 书 也 
是 对 机 器 学 习 的 一 个 很 好 的 介绍 ， 它 使 用 了 一 些 Python 开 源 库 (如 
Pylearn 2 和 Theano) ° 


-Yaser S.Abu-Mostafa ` Malik Magdon-Ismail 和 Hsuan-Tien LinG@ 4H, 
Learning from Data (AMLBook 出 版 ) 。 对 于 机 器 学 习 来 说 ， 这 是 一 个 


RAS BEV CATT, AERE TRALEE E ZA 
衡 部 分 〈 见 第 4 章 ) 。 


‘Stuart Russell 和 Peter Norvig 合 车 的 A Modern Approach, 3rd (Pearson 出 
版 ) 。 这 是 一 本 很 好 的 (很 厚 的 ) 书 ， 涵 盖 了 包括 机 器 学 习 在 内 的 大 
量 主 题 ， 可 以 帮助 我 们 正确 地 看 待 和 理解 机 絮 学 习 。 

最 后 还 有 一 个 非常 好 的 学 习 方 式 是 加 入 机 器 学 习 竞 赛 网 站 ， 比 如 
Kaggle.com。 它 允许 你 通过 解决 现实 世界 中 的 问题 来 练习 你 的 技能 ， 而 
且 有 很 多 顶级 的 机 器 学 习 专 家 会 帮助 你 。 

排版 约定 

本 书 中 使 用 以 下 排版 约定 : 

和 斜体 

指示 新 的 术语 、 网 址 、 电 子 邮 件 地 址 、 文 件 名 和 文件 扩展 名 。 


等 宽 字体 (Constant width) 


用 于 程序 清单 ， 以 及 段落 内 引用 的 程序 元 素 ， 如 变量 或 函数 名 称 、 数 
据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关键 子 。 


等 帘 黑 体 (Constant width bold) 
显示 应 由 用 户 输入 的 命令 或 其 他 文本 。 
oe LR (Constant width italic) 


TRAA AA fe EB EP SCE ER RAC o 


A 表示 提示 或 者 建议 。 


` 表示 一 个 普通 的 说 明 


Be 表示 警告 


使 用 代码 示例 


补充 材料 (代码 示例 、 练 习题 等 ) 可 在 
https://github.com/ageron/handson-ml 下 载 。 


这 本 书 可 以 帮助 你 完成 工作 。 一 般 来 说 ， 本 书 提 供 的 示例 代码 可 以 在 
程序 和 文档 中 使 用 。 除 非 你 复制 了 大 部 分 代码 ， 否 则 无 须 联系 我 们 获 
得 许可 。 例 如 ， 编 写 使 用 本 书 中 几 个 代码 块 的 程序 不 需要 许可 。 不 过 
销售 或 分 发 O'Reilly 书 籍 中 的 示例 CD-ROM 需 要 获得 许可 。 引 用 本 书 的 
示例 代码 来 回答 问题 不 需要 许可 。 将 本 书 中 的 大 量 示例 代码 整合 到 产 
品 文档 中 则 需要 获得 许可 。 


我 们 沈 赏 但 不 要 求 归 属 权 声明 。 归 属 权 声明 通常 包括 书 名 、 作 者 、 出 
版 者 和 ISBN。 例 如 : “Hands-On Machine Learning with Scikit-Learn and 
TensorFlow by Aureélien Geéron (O’Reilly) .Copyright 2017 Aureélien 
Geéron, 978-1-491-96229-9.”。 


如 果 你 觉得 你 对 示例 代码 的 使 用 超出 上 述 许可 范围 ， 可 以 随时 通过 
<permissions@oreillycom> 联 系 我 们 。 


Safari 在 线 电子 书 


> Safari Safari (以 前 的 Safari Books Online) 是 一 个 面向 企业 、 政 
府 、 教 育 者 和 个 人 的 基于 会 员 的 培训 和 参考 平台 。 


书店 的 会 员 可 以 从 几 百 家 出 版 社 的 数据 库 中 搜索 并 获得 数 千 种 图 书 、 
培训 视频 、 正 式 出 版 前 的 手稿 等 资料 ， 这 些 出 版 社 包 括 O’?Reilly 
Media ` Prentice Hall Professional » Addison-Wesley Professional ` 
Microsoft Press ` Sams ` Que ` Peachpit Press ` Focal Press ` Cisco 
Press ` John Wiley & Sons ` Syngress ` Morgan Kaufmann ` IBM 
Redbooks ` Packt ` Adobe Press ` FT Press ` Apress ` Manning ` New 
Riders ` McGraw-Hill ` Jones & Bartlett ~ Course Technology ° 


要 了 解 Safari 网 上 书店 的 更 多 信息 ， 请 访问 我 们 的 网 站 ( 


https://www.safaribooksonline.com ) 


如 何 联系 我 们 


美国 : 

O’Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 

HH [E]: 

北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035) 

奥 莱 利 技术 咨询 (北京 ) 有 限 公司 

我 们 为 本 书 设立 了 专门 的 网 页 ， 其 中 有 勘误 表 、 程 序 示例 以 及 其 他 有 


天 信息 ， 网 址 是 http://bit.ly/hands-on-machine-learning-with-scikit-learn- 
and-tensorflow ° 


对 本 书 的 意见 或 询问 技术 问题 ， 请 发 邮件 至 


bookquestions@oreilly.com ° 


更 多 与 O’Reilly 有 关 的 图 书 、 课 程 、 会 议 、 新 闻 等 信息 ， 请 访问 我 们 的 


网 站 _http://www.oreilly.com ° 


读者 可 在 Facebook 上 关注 我 们 : _http://facebook.com/oreilly_ ° 


读者 可 在 Twitter 上 关注 我 们 : http://twitter.com/oreillymedia 。 


读者 可 在 YouTube 上 关注 我 们 : ”http:/www.youtube.com/oreillymedia ° 
致谢 


我 要 感谢 我 在 Google 的 同事 ， 特 别 是 YouTube 视 频 分 类 小 组 ， 他 们 教 给 
我 很 多 关于 机 器 学 习 的 知识 。 没 有 他 们 ， 我 永远 无 法 开始 这 个 项 目 。 
特别 感谢 我 的 个 人 机 器 学 习 专 家 : Clément Courbet ` Julien Dubois ` 
Mathias Kende ` Daniel Kitachewsky ` James Pack ` Alexander Pak ` 
Anosh Raj ` Vitor Sessak ` Wiktor Tomczak ` Ingrid von Glehn ` Rich 
Washington 以 及 YouTube 巴 黎 办 公 室 的 所 有 人 。 


非常 感谢 所 有 在 百 忙 中 抽出 时 间 来 仔细 阅读 书稿 的 人 。 感 谢 Pete 
Warden 回 答 了 我 所 有 关于 TensorFlow 的 问题 ， 他 对 第 二 部 分 进行 了 审 
校 ， 提 供 了 许多 有 趣 的 见解 ， 当 然 也 成 为 TensorFlow 核 心 团队 的 一 员 。 
你 一 定 要 浏览 他 的 博客 (https://petewarden.com/ ) ! 非常 感谢 Lukas 
Biewald 对 第 二 部 分 的 全 面 审 校 : 他 认真 而 仔细 地 测试 了 所 有 的 代码 
(并 且 发 现 了 一 些 错误 ) ， 提 出 了 许多 很 好 的 建议 ， 他 的 热情 也 很 有 
感染 方 。 你 应 该 浏览 他 的 博客 (https:Wlukasbiewaldcom/ ) 和 他 做 的 很 
酷 的 机 器 人 (https://go0.g/Eu5u28 ) ! 感谢 Justin Francis， 他 也 仔细 审 
校 了 第 二 部 分 ， 特 别 是 第 16 章 ， 指 出 了 一 些 错误 并 提供 了 很 好 的 见 
解 。 查 看 他 在 TensorFlow 上 的 帖子 (https:/goo.gl28ve8z ) ! 


非常 感谢 David Andrzejewski， 他 审 校 了 本 书 的 第 一 部 分 ， 提 供 了 非常 
有 用 的 反馈 ， 指 出 了 不 明确 的 部 分 并 提出 了 改进 建议 。 你 应 该 看 看 他 
的 网 站 (http://www.david-andrzejewski.com/) ! 感谢 Grégoire 

Mesnil， 他 对 第 二 部 分 进行 了 评论 ， 并 对 培训 神经 网 络 提供 了 非常 有 趣 
的 实用 建议 。Eddy Hung ` Salim Sémaoune ` Karim Matrah ` Ingrid von 
Glehn ` Iain Smears Vincent Guilbeau 先 生 审 校 第 一 部 分 并 提出 了 许多 
有 用 的 建议 。 我 还 要 感谢 我 的 岳父 兼 前 数学 老师 Michel Tessier， 他 现 
在 是 Anton Chekhov 的 一 名 优秀 翻译 ， 帮 助 我 解决 了 本 书 中 的 一 些 数学 
标记 和 符号 的 问题 ， 并 审 校 了 线性 代数 Jupyter 笔 记 本 。 


当然 ， 也 要 对 我 亲爱 的 兄弟 Sylvain 由 衷 地 说 一 声 “ 谢 谢 ”， 他 审 校 了 每 
一 章 ， 对 每 一 行 代码 进行 了 测试 ， 几 乎 在 每 一 部 分 都 提供 了 反馈 ， 并 
发 励 我 有 始 有 终 。 爱 你 ， 兄 弟 ! 


非常 感谢 O'Reilly 优 秀 的 员工 ， 特 别 是 Nicole Tache， 他 给 了 我 很 多 有 价 

值 的 反馈 ， 他 开朗 、 善 于 鼓励 他 人 并 乐于 助人 。 还 要 感谢 Marie 

Beaugureau ` Ben Lorica ` Mike Loukides 和 Laurel Ruma 认 可 本 书 ， 并 大 

助 我 确定 写作 范围 。 感 谢 Matt Hacker 和 Atas 团 队 的 所 有 成 员 回答 了 关 

于 格式 化 、asciidoc 和 LaTeX 的 所 有 技术 问题 ， 同 时 感谢 Rachel 

` Nick Adams 和 所 有 产品 团队 的 最 终 评审 以 及 他 们 数 百 次 的 
JE ° 


BUA, TEARRE ZEmmanuele, UARA Z MLB: 
Alexandre ` Rémi Gabrielle ° HHMNRMREIF SE, Hib TAS 
题 〈 谁 说 不 能 教 7 岁 的 孩子 神经 网 络 ? ) ， 还 给 我 递 饼 干 和 咖啡 。 人 生 
如 些 ， 夫 复 何 求 ? 


[1] i= Hinton) + Ui http://www.cs.toronto.edu/~hinton/ ° 


[2]. A Yann Lecun 的 深 卷 积 神 经 网 络 目 20 世 纪 90 年 代 以 来 在 图 像 识别 
方面 运作 民 好 ， 但 这 并 非 一 般 用 途 。 


第 一 部 分 ”机 器 学 习 基 础 
第 1 草 ”机 器 学 习 概 宽 


大 多 数 人 听 到 “机 瑚 学 习 ” 这 个 词 ， 脑 海中 会 浮现 出 一 个 机 硼 人 : 可 能 
是 一 个 可 靠 的 管家 ， 也 可 能 是 一 个 致命 的 终结 者 形象 ， 这 取决 于 你 问 
的 对 象征 谁 。 但 是 ， 机 融 学 习 已 经 不 仅仅 只 是 一 个 未 来 幻想 了 ， 它 已 
经 存在 了 。 事 实 上， 在 某 些 专门 领域 的 应 用 中 ， 例 如 光学 字符 识别 
(OCR) ， 它 甚至 已 经 存在 了 几 十 年 。 但 是 ， 第 一 个 真正 成 为 主流 并 
改善 了 亿 万 人 民生 活 的 机 瑚 学 习 应 用 ， 是 20 世 纪 90 年 代 席 卷 了 全 世界 
的 垃圾 邮件 过 滤器 。 它 不 算是 一 个 有 上 自我 意识 的 天 网 (Skynet) ， 但 从 
技术 上 来 讲 ， 它 确实 有 资格 称 为 一 种 机 器 学 习 (事实 上 它 也 学 得 很 
好 ， 我 们 几乎 不 需要 再 手动 标记 垃圾 邮件 了 ) 。 随 后 便 是 数 以 百 计 的 
机 妖 学 习 应 有 用， 默默 地 为 那些 我 们 定期 使 用 的 产品 和 功能 提供 支持 ， 
从 更 好 的 推荐 系统 到 语音 搜索 。 


机 器 学 习 始 于 何 处 ， 又 将 终于 何方 ? 对 机 器 而 言 ， 学 习 到 底 意 味 着 什 
A? 如 来 我 下 载 一 份 维基 百科 的 副本 在 我 的 电脑 上 ， 它 束 真 的 学 到 了 
A? 会 突然 变 得 更 聪明 吗 ? 在 本 章 中 ， 我 们 将 首先 湾 清 什么 是 机 器 学 
习 ， 以 及 我 们 为 什么 要 使 用 它 。 


在 我 们 开始 探索 机 右 学 习 的 新 大 陆 之 前 ， 先 来 看 看 地 图 ， 了 解 一 下 主 
要 地 区 和 最 显著 的 地 标 ， 监督 式 与 无 监督 式 学 习 ， 在 线 学 习 与 批量 学 
习 ， 基 于 实例 的 与 基于 模型 的 学 习 。 然 后 ， 我 们 将 介绍 一 个 典型 的 机 
如 学 习 项 目的 工作 流程 ， 讨 论 你 可 能 会 面 量 的 主要 挑战 ， 并 介绍 如 何 
对 机 蓝 学习 系统 进行 评估 和 微调 。 


本 章 会 介绍 许多 基本 的 概念 (和 术语 ) ， 每 一 个 数据 科学 家 都 应 该 对 
此 烂熟 于 心 。 本 草坪 一 个 高 度 概括 性 的 介绍 (唯一 没有 太 多 代码 的 章 
W) ， 所 述 知识 也 都 很 简单 ， 但 是 在 你 阅读 本 书 的 其 余部 分 之 前 ， 一 
a aa 
站 开始 吧 ! 


多 如 果 你 已 经 知道 所 有 机 器 学 习 的 基础 知识 ， 可 以 直接 跳 到 第 2 章 。 
如 采 不 确定 ， 可 以 党 试 回答 本 章 末 尾 列 出 的 所 有 问题 ， 然 后 再 继续 。 


1 Ae Lae >) 
机 器 学 习 是 一 门 能 够 让 编程 计算 机 从 数据 中 学 习 的 计算 机 科学 (和 艺 


这 里 有 一 个 略微 党 统 的 定义 : 
机 器 学 习 研 究 如 何 让 计算 机 不 需要 明确 的 程序 也 能 具备 学 习 能 
— Arthur Samuel, 1959 
还 有 一 个 更 偏 工程 化 的 定义 : 
一 个 计算 机 程序 在 完成 任务 T 之 后 ， 获 得 经 验 E， 其 表现 效果 为 P， 如 果 


任务 T 的 性 能 表现 ， 也 就 是 用 以 衡量 的 p， 随 着 E 的 增加 而 增加 ， 可 以 称 
其 为 学 习 。 


Tom Mitchell, 1997 


举例 来 说 ， 垃 圾 邮件 过 滤器 就 是 一 个 机 器 学 习 的 程序 ， 它 通过 垃圾 邮 
件 (比如 用 户 手 动 标记 的 垃圾 邮件 ) 以 及 常规 邮件 〈 非 垃圾 邮件 ) 的 
示例 ， 来 学 习 标记 垃圾 邮件 。 系 统 用 来 学 习 的 这 些 示 例 ， 我 们 称 之 为 
训练 集 。 每 一 个 训练 示例 称 为 训练 实例 或 者 是 训练 样本 。 在 本 例 中 ， 

任务 T 就 是 给 新 邮件 标记 垃圾 邮件 ， 经 验 E 则 是 训练 数据 ， 那 么 衡量 性 
能 表现 的 指标 P 则 需要 我 们 来 定义 ， 例 如 ， 我 们 可 以 使 用 被 正确 分 类 的 
邮件 的 比率 来 衡量 。 这 个 特殊 的 性 能 衡量 标准 称 为 精度 ， 经 常用 于 衡 


量 分 类 任务 。 


所 以 ， 如 果 你 只 是 下 载 了 维基 百科 的 副本 ， 你 的 电脑 得 到 了 更 多 的 数 
据 ， 这 并 不 会 给 任何 任务 带 来 提升 。 因 此 ， 它 不 是 机 器 学 习 。 


为 什么 要 使 用 机 器 学 习 


EB, ROAR EDR EL Pe Se BOR OR SS — PB LB PET A 
WEE i 【 见 图 1-1) : 


1. 你 会 看 看 垃圾 邮件 通常 长 什么 样 。 你 可 能 会 注意 到 某 些 单词 或 用 语 
(比如 “4U”“ 信 用 卡 沽 免费 "以 及 “神奇 的 ”等 字眼 ) 在 这 类 主题 中 出 现 的 
Tn 
JIRE © 


2. 你 会 为 你 发 现 的 每 个 模式 编写 检测 算法 ， 如 末 检 测 到 一 定数 量 的 这 类 
模式 ， 你 的 程序 会 将 其 标记 为 垃圾 邮件 。 


Se eee Ae RE ee el ae 
Ý o 


图 1-1: 传统 编程 方法 


而 这 些 问 题 都 并 不 简单 ， 因 此 你 的 程序 很 可 能 变 成 一 长 串 的 复杂 规则 
一 一 很 难 维护 。 


相 比 之 下 ， 基 于 机 器 学 习 技术 的 垃圾 邮件 过 滤 侨 通过 对 比 垃圾 邮件 示 
例 和 常规 邮件 示例 ， 目 动 检测 垃圾 邮件 中 异常 频 党 的 单词 模式 ， 目 动 
学 习 哪些 单词 和 短语 可 以 作为 垃圾 邮件 的 预测 因素 ( 见 图 1-2) 。 这 样 
的 程序 要 简短 得 多 ， 易 于 维护 ， 并 且 可 能 还 更 准确 。 


训练 机 器 
FRI 


图 1-2: 机 器 学 习 解 决 方法 


此 外 ， 如 有 果 垃 圾 邮件 发 送 者 注意 到 所 有 包含 “4U? 字 眼 的 电子 邮件 都 被 
阻止 ， 他 们 很 可 能 会 开始 写成 *For U”。 使 用 传统 编程 技术 的 垃圾 邮件 
过 滤器 需要 更 新 才能 标记 “For U? 的 邮件 。 而 如 果 垃 圾 邮件 发 送 者 持续 


i 党 着 你 的 过 滤器 来 工作 ， 那 你 将 需要 永 无 止境 地 续 写 新 的 过 滤 规 


相 比 之 下 ， 基 于 机 器 学 习 技 术 的 垃圾 邮件 过 滤器 可 以 自动 注意 到 “For 
U” 开 始 在 用 户 标 记 的 垃圾 邮件 中 出 现 得 异常 频繁 ， 不 需要 人 为 干预 ， 
就 会 开始 自动 标记 它们 〈 见 图 1-3) ° 


PARATE 
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图 1-3: 自动 适应 变化 


机 器 学 习 的 男 一 个 内 交点 ， 是 针对 那些 使 用 传统 方法 太 过 复杂 一 一 长 
至 根本 不 存在 已 知 算法 的 问题 。 例如 语言 识别 ; 假如 你 想 写 一 个 能 够 
Ka 出 “一 ”和 “二 ”的 程序 。 你 会 想到 , “二 ” (two) 的 读音 是 以 一 个 高 
E (T) FR 所 以 你 可 以 硬 编码 出 一 个 测量 高 音 强 度 的 算法 ， 然后 
用 它 来 区 分 < 一 和 “二 °。 但 是 想 想 数 以 百 万 计 的 不 同人 群 所 说 的 成 千 上 
万 的 词句 ， 加 之 其 所 处 的 吵闹 环境 ， 以 及 所 使 用 的 几 十 种 不 同 的 语 
襄 ， 很 显然 ， 这 种 技术 不 可 能 得 以 扩展 。 运 今 为 止 ， 最 好 的 解决 方案 
T 写 一 个 能 够 自己 学 习 的 算法 ， 然 后 针对 每 个 字 给 它 提 供 许多 录音 示 


最 后 ， 机 咽 学 习 还 可 以 帮助 人 类 学 习 〈 见 图 1-4) : 通过 检视 机 器 学 习 
算法 以 了 解 它们 学 到 了 什么 (REM PREGA RL, iC A) RENER 
F) 。 例 如 ， 一 旦 垃圾 邮件 过 滤器 经 过 了 足够 多 的 训练 ， 人 们 可 以 很 
轻松 地 检视 它 ， 碍 看 它 认 为 的 可 以 作为 垃圾 邮件 最 佳 预 判 因子 的 单词 
及 单词 组 合 的 列表 。 有 时 候 ， 这 可 能 会 揭示 出 一 些 人 类 未 曾 意 识 到 的 
关联 性 或 是 新 趋势 ， 从 而 帮助 我 们 更 好 地 理解 问题 。 


应 用 机 器 学 习 技术 来 控 扬 海量 数据 ， 可 以 帮助 我 们 发 现 那 些 此 前 并 非 
立 见 端倪 的 模式 。 这 个 过 程 称 为 数据 挖掘 。 


训练 机 器 
学 习 算法 


解决 方案 


图 1-4: 机 器 学 习 可 以 帮助 人 类 学 习 
简 而 言 之 ， 机 器 学 习 的 伟大 在 于 : 


-对 于 那些 现 有 解决 方案 需要 大 量 手动 调整 或 者 是 规则 列表 超 长 的 问 
题 ， 通 过 一 个 机 器 学 习 的 算法 就 可 以 简化 代码 ， 并 且 提 升 执行 表现 。 


-对 于 那些 传统 技术 手段 根本 无 法 解决 的 复杂 问题 ， 通 过 最 好 的 机 器 学 
习 技 术 可 以 找到 一 个 解决 方案 。 


-对 于 环境 波动 : 机 器 学 习 系统 可 以 适应 新 的 数据 。 
-从 复杂 问题 和 海量 数据 中 获得 洞 见 。 
机 器 学 习 系 统 的 种 类 


现 有 的 机 器 学 习 系统 种 类 繁多 ， 为 便于 理解 我 们 根据 以 下 内 容 将 它们 

进行 大 的 分 类 : 

:是 否 在 人 类 监督 下 训练 (监督 式 学 习 、 无 监督 式 学 习 、 半 监督 式 学 习 

和 强化 学 习 ) 

:是 否 可 以 动态 地 进行 增 量 学 习 (在 线 学 习 和 批量 学 习 ) 

.是 简单 地 将 新 的 数据 点 和 已 知 的 数据 点 进行 匹配 ， 还 是 像 科 学 家 那 

样 ， 对 训练 数据 进行 模式 检测 ， 然 后 建立 一 个 预测 模型 (基于 实例 的 

学 习 和 基于 模型 的 学 习 ) 

这 些 标准 之 间 互 相 并 不 排斥 ， 你 可 以 以 你 喜欢 的 方式 将 其 任意 组 合 。 

例如 ， 现 在 最 先进 的 垃圾 邮件 过 滤器 可 能 是 使 用 深度 神经 网 络 模型 对 

垃圾 邮件 和 常规 邮件 进行 训练 ， 完 成 动态 学 习 。 这 使 其 成 为 一 个 在 线 

的 、 基 于 模型 的 、 监 督 式 学 习 系 统 。 

我 们 来 看 看 这 几 个 标准 。 

监督 式 /无 监督 式 学 习 

根据 训练 期 间接 受 的 监督 数量 和 监督 类 型 ， 可 以 将 机 器 学 习 系统 分 为 
Fajs 


监督 式 学 习 


在 监督 式 学习 中 ， 提 供给 算法 的 包含 所 需 解决 方案 的 训练 数据 ， 称 为 
标签 或 标记 〈 见 图 1-5) ° 


训练 集 


DON 
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图 1-5: 监督 式 学 习 中 被 标记 的 训练 集 (例如 ， 垃 圾 邮件 分 类 ) 


分 类 任务 古 一 个 典型 的 监督 式 学 习 任务 。 坪 圾 邮件 过 滤 絮 整 古 个 很 好 
的 例子 : 通过 大 量 的 电子 邮件 示例 及 其 所 属 的 类 别 (垃圾 邮件 或 是 常 
规 邮件 ) 进行 训练 ， 然 后 学 习 如 何 对 新 邮件 进行 分 类 。 


还 有 典型 的 任务 ， 是 通过 预测 变量 ， 也 就 是 一 组 给 定 的 特征 (里 程 、 
使 用 年 限 、 品 牌 等 ) 来 预测 一 个 目标 数值 ， 例 如 汽车 的 价格 。 这 种 类 
型 的 任务 称 为 回归 任务 〈 见 图 1-6) ! 半 。 要 训练 这 样 一 个 系统 ， 需 要 提 
oe ， 包 括 它们 的 预测 变量 和 标签 (也 就 是 它们 的 价 


Ñ 在 机 中 学习 里 属性 是 一 种 数据 类 型 (例如 “里 程 ”) ; 而 特征 取决 
于 上 下 文 ， 可 能 有 多 个 含义 ， 但 是 通常 状况 下 ， 特 征 意味 着 一 个 属性 
加 上 其 值 (例如 , “里 程 =15000”) 。 尽 管 如 此 ， 许 多 人 还 是 会 可 交接 
地 使 用 属性 和 特征 这 两 个 名 词 。 


新 实例 特征 1 


图 1-6: 回归 任务 
值得 注意 的 是 ， 一 些 回归 算法 也 可 以 用 于 分 类 任务 ， 反 之 亦 然 。 例 
如 ， 逻 辑 回归 丈 被 广泛 地 用 于 分 类 ， 因 为 它 可 以 输出 “属于 某 个 给 定 类 
别 的 概率 ”的 值 (例如 ，20% 的 概率 是 垃圾 邮件 ) 。 
这 里 是 一 些 最 重要 的 监督 式 学 习 的 算法 (会 在 本 书 中 介绍 ) : 
-K-T 


邻 算 法 (k-Nearest Neighbors) 


线性 回归 (Linear Regression) 

:逻辑 回归 (Logistic Regression) 

:支持 向 量 机 (Support Vector Machines, SVM) 
.决策 树 和 随机 森林 (Decision Trees and Random Forests) 
:神经 网 络 (Neural networks) [4 


无 监督 式 学 习 


顾名思义 ， 无 监督 式 学 习 的 训练 数据 都 是 未 经 标记 的 ( 见 图 1-7) 。 系 
统 会 在 没有 老师 的 情况 下 进行 学 习 。 


A (我 们 将 会 在 第 8 章 介绍 降 
: 聚 类 算法 

kk- 平均 算法 (k-Means) 

.分 层 聚 类 分 析 (Hierarchical Cluster Analysis, HCA) 


.最 大 期 望 算 法 (Expectation Maximization) 


训练 集 


图 1-7: 无 监督 式 学 习 的 未 标记 训练 集 
可视化 和 降 维 
- 主 成 分 分 析 (PCA) 
. 核 主 成 分 分 析 (Kernel PCA) 


:局 部 线性 柑 入 (LLE) 


分布 随 机 近 临 嵌入 (t-SNE) 
关联 规则 学 习 

‘Apriori 

‘Eclat 


例如 ， 假 设 你 现在 拥有 大 量 的 目 己 博 客 访客 的 数据 。 你 想 通过 一 个 聚 
类 算法 来 检测 相似 访客 的 分 组 〈 见 图 1-8) 。 你 不 大 可 能 告诉 这 个 算法 
每 个 访客 属于 哪个 分 组 一 一 布 望 算 法 目 己 去 寻找 这 种 关联 ， 而 无 须 你 
的 帮助 。 比 如 ， 它 可 能 会 注意 到 40% 的 访客 是 喜欢 漫画 的 男性 ， 并 且 通 
第 在 夜晚 阅读 你 的 博客 ，20% 的 访客 是 年 轻 的 科幻 爱好 着 ， 通 单 在 周末 
访问 ， 等 等 。 如 琳 你 使 用 的 是 层次 聚 类 的 算法 ， 它 还 可 以 将 每 组 细 分 
为 更 小 的 组 。 这 可 能 有 助 于 你 针对 不 同 的 分 组 来 发 布 博客 内 容 。 


特征 2 


图 1-8: RX 


可 视 化 算法 也 是 无 监督 式 学 习 算 法 的 好 例子 : 你 提供 大 量 复杂 的 、 未 
标记 的 数据 ， 得 到 轻松 绘制 而 成 的 2D 或 3D 的 数据 呈现 作为 输出 ( 见 图 
1-9) 。 这 些 算法 会 尽 其 所 能 地 保留 尽量 多 的 结构 〈 例 如 ， 艾 试 保持 让 
输入 的 单独 集群 在 可 视 化 中 不 会 被 重要 ) ， 以 便于 你 理解 这 些 数据 是 
皇 么 组 织 的 ， 甚 至 识别 出 一 些 未 知 的 模式 。 


图 1-9: —“MEFIt-SNESTEHY Cas, RE TARAIA 


与 之 相关 的 另 一 种 任务 是 降 维 ， 降 维 的 目的 是 在 不 丢失 太 多 信息 的 前 
提 下 简化 数据 。 方 法 之 一 是 将 多 个 相关 特征 合并 为 一 个 。 例 如 ， 汽 车 
的 里 程 与 其 使 用 年 限 存 在 很 大 的 相关 性 ， 所 以 降 维 算法 会 将 它们 合并 
成 一 个 代表 汽车 磨损 的 特征 。 这 个 过 程 叫 作 特 征 提取 。 


A E ERT Be, CAE A RAE RAMO VREE, FCF 
其 提供 给 另 一 个 机 器 学 习 算 法 (例如 监督 式 学 习 算 法 。 这 会 使 它 运 
行 得 更 快 ， 数 据 占 用 的 磁盘 空间 和 内 存 都 会 更 小 ， 在 某 些 情 况 下 ， 执 
ST VERE BUF 


男 一 个 很 重要 的 无 监督 式 任务 是 异常 检测 一 一 例如 ， 检 测 异 常 信用 卡 
交易 从 而 防止 欺诈 ， 捕 捉 制 造 缺 陷 ， 或 者 是 在 提供 数据 给 一 种 机 器 学 
习 算 法 之 前 ， 自 动 从 数据 集中 移 除 异常 值 。 系 统 用 正常 实例 进行 训 

练 ， 然 后 当 看 到 新 的 实例 时 ， 它 就 可 以 判断 出 这 个 新 实例 看 上 去 是 正 
常 还 是 异常 〈 见 图 1-10) ° 


特征 ? 
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图 1-10: 异常 检测 


最 后 ， 还 有 一 个 常见 的 无 监督 式 任务 是 关联 规则 学 习 ， 其 目的 十 挖 气 
大 量 数据 ， 发 现 属性 之 则 的 有 趣 联系 。 比 如 ,假设 你 开 了 一 家 超市 ， 
在 销售 日 志 上 运行 关联 规 则 之 后 发 现 买 烧烤 效 和 墓 片 的 人 也 倾向 于 购 
屎 牛排。 那么， 你 可 能 会 将 这 几 样 商品 摆 放 得 更 近 一 些 。 


半 监督 式 学 习 
有 些 算法 可 以 处 理 部 分 标记 的 训练 数据 一 通常 是 大 量 未 标记 数据 和 
少量 的 标记 数据 。 这 称 为 半 监 督 式 学 习 ( 见 图 1-11) 。 


有 些 照片 托管 服务 〈 例 如 Google 相 册 ) 就 是 很 好 的 例子 。 一 旦 你 将 所 
有 的 家 性 照片 上 传 到 服务 器 后 ， 它 会 目 动 识别 出 人 物 A 出 现在 照片 1、5 
和 11 中 ， 人 物 B 出 现在 照片 >、5 和 7 中 。 这 是 算法 中 无 监督 的 部 分 〈 聚 
K) 。 现 在 系统 需要 你 做 的 只 是 ， 告 诉 它 这 些 人 都 是 谁 。 给 每 个 人 一 


个 标签 [站 之 后 ， 它 束 可 以 给 每 张 照 片 中 的 每 个 人 命名 ， 这 对 于 搜索 图 
片 非常 重要 。 
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图 1-11， 半 监督 式 学 习 


大 多 数 半 监督 式 学 习 算法 是 无 监督 式 和 监督 式 算法 的 结合 。 例 如 深度 
信念 网 络 (DBN) ， 它 基于 一 种 互相 堆 秋 的 无 监督 式 组 件 ， 这 个 组 件 
叫 作 受 限 玻 尔 效 曼 机 (RBM) 。 受 限 玻 尔 兹 曼 机 以 无 监督 的 方式 进行 
训练 ， 然 后 使 用 监督 式 学 习 对 整个 系统 进行 微调 。 


强化 学 习 


强化 学 习 则 是 一 个 非常 与 众 不 同 的 “ 巨 兽 ”。 它 的 学 习 系统 在 其 语 境 
中 称 为 智能 体 ) 能 够 观察 环境 ， 做 出 选择 ， 执 行 操作 ， 并 获得 回报 
(reward) ， 或 者 是 以 负面 回报 的 形式 获得 惩罚 ， 见 图 1-12。 所 以 它 必 
须 自行 学 习 什么 是 最 好 的 策略 (policy) ， 从 而 随 着 时 间 推移 获得 最 大 
的 回报 。 策 略 代表 智能 体 在 特定 情况 下 应 该 选择 的 操作 。 


ð 执行 
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(5) 升级 策略 (学 习 过 各 
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图 1-12: 强化 学 习 


例如 ， 许 多 机 器 人 通过 强化 学 习 算 法 来 学 习 如 何 行走 DeepMind 的 
AlphaGo 项 目 也 是 一 个 强化 学 习 的 好 例子 。2016 年 3 月 ，AlphaGo 在 围棋 
比赛 中 击败 世界 冠军 李 世 石 而 声名 鹊起 。 通 过 分 析 数 百 万 场 比 赛 ， 然 
后 自己 跟 自 己 下 棋 ， 它 学 到 了 制胜 策略 。 要 注意 ， 在 跟 世 界 冠军 对 弈 
ee nO ee ie el 


批量 学 习 和 在 线 学 习 


还 有 一 个 给 机 器 学 习 系统 分 类 的 标准 ， 是 看 系统 是 否 可 以 从 传 入 的 数 
据 流 中 进行 增 量 学 习 。 

批量 学 习 

在 批量 学 习 中 ， 系 统 无 法 进行 增 量 学 习 一 即 必须 使 用 所 有 可 用 数据 
进行 训练 。 这 需要 大 量 时 间 和 计算 资源 ， 所 以 通常 情形 下 ， 都 是 离线 


完成 的 。 离 线 学 习 就 是 先 训练 系统 ， 然 后 将 其 投入 生产 环境 ， 这 时 学 
习 过 程 停止 ， 它 只 是 将 其 所 学 到 的 应 用 出 来 。 


如 采 希 望 批 量 学 习 系 统 学 习 新 数据 〈 例 如 新 型 垃圾 邮件 ) ， 你 需要 在 
完整 数据 集 (不 仅仅 是 新 数据 ， 还 要 包括 旧 数 据 ) 的 基础 上 重新 训练 
一 个 新 版 本 的 系统 ， 然 后 停 用 旧 系 统 ， 用 新 系统 取而代之 。 


驻 运 的 是 ， 整 个 训练 、 评 佑 和 局 动机 妖 学 习 系 统 的 过 程 可 以 很 轻易 地 


实现 自动 化 〈 如 图 1-13 所 示 ) ， 所 以 即使 是 批量 学 习 系 统 也 能 够 适应 变 
化 。 只 是 需要 不 断 地 更 新 数据 ， 并 根据 需要 频繁 地 训练 狐 版 本 的 系 


-EE 


统 。 
新 数据 (飞速 写 入 ) 


训练 机 器 
学 习 算法 


图 1-13: 在 线 学 习 


这 个 解决 方法 比较 商 单 ， 通 帝 情 况 下 也 都 能 正 肖 工作 ， 只 是 每 次 都 使 
用 全 套数 据 集 进行 训练 可 能 需要 花 上 好 几 个 小 时 ， 所 以 ， 你 很 有 可 能 
会 选择 每 天 甚至 每 周 训练 一 次 新 系统 。 如 采 你 的 系统 需要 应 对 快速 变 
化 的 数据 〈 例 如 ， 预 测 股票 价格 ) ， 那 么 你 需要 一 个 更 具 响 应 力 的 解 


决 方案 


此 外 ， 使 用 完整 数据 训练 需要 耗费 大 量 的 计算 资源 (CPU、 内 存 空 
间 、 磁 副 空 间 、 磁 盘 1/O、 网 络 1/O 等 ; 。 如 果 你 的 数据 量 非常 大 ， 并 且 
每 天 从 和 零 开 始 自 动 执行 训练 系统 ， 那 最 终 你 将 为 此 花费 大 量 的 金钱 。 
而 假如 你 面 对 的 是 海量 数据 ， 甚 至 可 能 无 法 再 应 用 批量 学 习 算 法 。 


所 以 如 果 你 的 资源 有 限 〈 例 如 ， 智 能 手机 应 用 程序 或 者 是 火星 上 的 漫 
fer) ， 而 系统 需要 实现 目 主 学 习 ， 那 么 像 这样 携 市 大 量 训 练 数据 ， 
占用 大 量 唤 源 ， 动 辑 每 天 耗费 几 小 时 来 进行 训练 的 方式 ， 肯 定 是 心 有 
余 而 力 不 足 。 


幸运 的 是 ， 在 所 有 这 些 情况 下 ， 我 们 有 了 一 个 更 好 的 选择 
能 够 进行 增 量 学 习 的 算法 。 


在 线 学 习 


在 在 线 学 习 中 ， 你 可 以 循序 渐进 地 给 系统 提供 训练 数据 ， 逐 步 积 累 学 
习 成 果 。 这 种 提供 数据 的 方式 可 以 是 单独 的 ， 也 可 以 采用 小 批量 

(mini-batches) 的 小 组 数据 来 进行 训练 。 每 一 步 学 习 都 很 快速 并 且 便 
宜 ， 所 以 系统 就 可 以 根据 飞速 写 入 的 最 新 数据 进行 学 习 ( 见 图 1-13) ° 


对 于 这 类 系统 需要 接收 持续 的 数据 流 (例如 股票 价格 ) 同时 对 数 
据 流 的 变化 做 出 快速 或 自主 的 反应 ， 使 用 在 线 学 习 系 统 是 一 个 非常 好 
的 方式 。 如 果 你 的 计算 资源 有 限 ， 在 线 学 习 系 统 同样 也 是 一 个 很 好 的 
选择 :新 的 数据 实例 一 旦 经 过 系统 的 学 习 ， 就 不 再 需要 ， 你 可 以 将 其 
丢弃 (除非 你 想 要 回 深 到 前 一 个 状态 ， 再 “重新 学 习 " 数 据 ) ， 这 可 以 
节省 大 量 的 空间 。 


对 于 超大 数据 集 一 一 超出 一 台 计 算 机 的 主 存储 器 的 数据 ， 在 线 学 习 算 
法 也 同样 适用 (这 称 为 核 外 学 习 ) 。 算 法 每 次 只 加 载 部 分 数据 ， 并 针 
对 这 部 分 数据 进行 训练 ， 然 后 不 断 重复 这 个 过 程 ， 直 到 完成 所 有 数据 
的 训练 〈 见 图 1-14) ° 


ie 


图 1-14: 使 用 在 线 学 习 处 理 超 大 数据 集 


RA ae HRI BORE MN 【也 就 是 不 在 live 系 统 上 ) ， 因 此 在 线 
学 习 这 个 名 字 很 容易 让 人 产生 谍 解 。 我 们 可 以 将 其 视 为 增 量 学 习 。 


在 线 学 习 系统 的 一 个 重要 参数 是 其 适应 不 断 变 化 的 数据 的 速度 ， 这 束 
征 所 谓 的 学 习 率 。 如 果 设 置 的 学 习 率 很 高 ， 那 么 系统 将 会 迅速 适应 新 
数据 ， 但 同时 也 会 很 快 筷 记 旧 数据 (你 肯定 不 希望 垃圾 邮件 过 滤器 只 
对 最 新 显示 的 邮件 进行 标记 ) 。 反 过 来 ， 如 果 学 习 率 很 低 ， 系 统 会 
更 高 的 惰性 ， 也 就 是 说 ， 学 习 会 更 缓慢 ， 同 时 也 会 对 痢 数 据 中 的 噪声 
或 者 非典 型 数据 点 的 序列 更 不 敏感 。 


在 线 学 习 面 临 的 一 个 重大 挑战 是 ， 如 果 给 系统 输入 不 民 数 据 ， 系 统 的 
性 能 将 会 逐渐 下 降 。 现 在 某 些 实时 系统 的 客户 说 不 定 已 经 注意 到 了 这 
个 现象 。 不 民 数 据 的 来 源 可 能 是 ， 例 如 ， 机 器 上 发 生 故 障 的 传感器 ， 
或 者 是 有 人 对 搜索 引擎 恶意 刷 屏 以 提高 搜索 结 采 排名 等 。 为 了 降低 这 


种 风险 ， 你 需要 密切 监控 你 的 系统 ， 一 旦 检测 到 性 能 下 降 ， 要 及 时 中 
断 学 习 (可 能 还 需要 恢复 到 之 前 的 工作 状态 ) 。 当 然 ， 同时 你 还 需要 
监控 输入 数据 ， 并 对 异常 数据 做 出 响应 例如， 使 用 异常 检测 算 


法 ) 
基于 实例 与 基于 模型 的 学 习 


男 一 种 对 机 器 学 习 系 统 进行 分 类 的 方法 是 看 它们 如 何 沁 化 。 大 多 数 机 
器 学 习 任务 钙 要 做 出 预测 。 这 意味 着 ， 系 统 需 要 通过 给 定 的 训练 示 
例 ， 在 它 此 前 并 未 见 过 的 示例 上 进行 沁 化 。 在 训练 数据 上 实现 民 好 的 
性 能 指标 固然 重要 ， 但 是 还 不 够 充分 ;真正 的 目的 是 要 在 新 的 对 象 实 
例 上 表现 出 色 。 


泛 化 的 主要 方法 有 两 种 ， 基 于 实例 的 学 习 和 基于 模型 的 学 习 。 
基于 实例 的 学 习 


我 们 最 司空 见 惯 的 学 习 方 法 束 是 简单 的 死记 硬 背 。 如 有 果 以 这 种 方式 创 
建 一 个 垃圾 邮件 过 滤器 ， 那 它 可 能 只 会 标记 那些 跟 已 被 用 户 标 记 为 垃 
ee eee ee 
征 最 好 的 。 


除了 完全 相同 的 ， 你 还 可 以 通过 编程 让 系统 标记 与 已 知 的 垃圾 邮件 非 
常 相似 的 邮件 。 这 里 需要 两 封 邮件 之 间 的 相似 度 度量 。 有 一 种 (基本 
的 ) 相似 度 度 量 方式 ， 是 计算 它们 之 间 相 同 的 单词 数目 。 如 有 果 一 封 新 
0 ee ee ee 
af g 


这 便 是 基于 实例 的 学 习 : 系统 先 完全 记 住 学 习 示 例 (example) ， 然 后 
通过 某 种 相似 度 度 量 方式 将 其 泛 化 到 新 的 实例 ( 见 图 1-15) 。 


基于 模型 的 学 习 


从 一 组 示例 集中 实现 泛 化 的 另 一 种 方法 是 构建 这 些 示 例 的 模型 ， 然 后 
使 用 该 模型 进行 预测 。 这 就 是 基于 模型 的 学 习 〈 见 图 1-16) ° 
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图 1-15: 实 
1-15: 基于 实例 的 学 习 


特征 1 


图 1-16: 基于 模型 的 学 习 


举例 来 说 ， 假 设 你 想 知 道 金钱 是 否 让 人 感到 快乐 ， 你 可 以 从 经 合 组 织 
(OECD) 的 网 站 (https:// /goo0. gL/OEht9W ) 上 下 载 “ 笠 福 指数 ”的 数 
据 ， 再 从 国际 货币 基金 组 织 (IMF) 的 网 站 (http:/goo.gUVjlLMSKe ) 上 
找到 人 均 GDP 的 统计 数据 ， 将 数据 并 入 表格 ， 按照 人 均 GDP 排 序 ， 你 
会 得 到 如 表 1-1 显 示 的 摘要 。 


表 1-1: 金钱 是 否 计 人 感到 快乐 


国家 人 均 GDP 生活 满意 度 
匈牙利 12 240 49 
韩国 27 195 5.8 


法 国 37675 6.5 


表 1-1: 金钱 是 否 让 人 感到 快乐 〈 续 ) 


国家 人 均 GDP 生活 满意 度 
澳大利亚 50 962 73 
美国 55 805 12 


让 我 们 随机 绘制 几 个 国家 的 数据 〈 见 图 1-17) ° 


0 10000 20000 30000 40000 50000 60000 
AH GDP 


图 1-17: 看 出 趋势 了 人 么 


这 里 似乎 有 一 个 趋势 ! 虽然 数据 包含 噪声 〈 即 部 分 随机 ) ， 但 是 仍然 
可 以 看 出 随 着 国内 生产 总 值 的 增加 ， 生 活 满意 度 或 多 或 少 呈 线性 上 升 
的 趋势 。 所 以 你 可 以 把 生活 满意 度 建 模 成 一 个 关于 人 均 GDP 的 线性 画 
数 。 这 个 过 程 叫 作 模型 选择 。 你 为 生活 满意 度 选 择 了 一 个 线性 模型 ， 
该 模型 只 有 一 个 属性 ， 就 是 人 均 GDP 〈 见 公式 1-1) ° 


公式 1-1: “aj RR PE 


生活 满 BE =O)+0, X A H GDP 


这 个 模型 有 两 个 参数 ，9 0 和 09 1。 中 通过 调整 这 两 个 参数 ， 可 以 用 这 个 
模型 来 代表 任意 线性 函数 ， 如 图 1-18 所 示 。 


在 使 用 模型 之 前 ， 和 需要 先 定义 参数 9 0 和 91 的 值 。 怎 么 才能 知道 什么 值 
可 以 使 得 模型 表现 最 佳 呢 ? 要 回答 这 个 问题 ， 需 要 移 确定 怎么 衡量 模 
型 的 性 能 表现 。 要 么 定义 一 个 效用 函数 《或 适应 度 函 数 ) 来 衡量 模型 
有 多 好 ， 要 么 定义 一 个 成 本 函数 来 衡量 模型 有 多 才 。 对 于 线性 回归 问 
题 ， 通 币 的 选择 旦 使 用 成 本 函数 来 衡量 线性 模型 的 预测 与 训练 实例 之 
间 的 差距 ， 目 的 在 于 尽量 使 这 个 差距 最 小 化 。 
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图 1-18: 可 能 的 线性 模型 


这 正 是 线性 回归 算法 的 意义 所 在 : 通过 你 提供 的 训练 样本 ， 找 出 最 符 
合 所 提供 数据 的 线性 模型 的 参数 ， 这 就 是 训练 模 型 的 过 程 。 在 我 们 这 
个 案例 中 ， 算 法 找到 的 最 优 参 数值 为 90 =4.85 和 81 =4.91x10 


现在 ， (对 于 线性 模型 而 言 ) 模型 基本 接近 训练 数据 ， 如 图 1-19 所 示 。 


=4.85 
0=491 X10 
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图 1-19: 对 训练 数据 拟 合 最 佳 的 线性 模型 


现在 终于 可 以 运用 模型 来 进行 预测 了 。 例 如 ， 你 想 知 道 塞浦路斯 的 人 
民有 多 斑 福 ， 但 是 经 合 组 织 的 数据 没有 提供 答案 。 玉 好 你 有 这 个 模型 
可 以 做 出 预测 : 先 查 查 塞浦路斯 的 人 均 GDP 是 多 少 ， 即 22587 美 元 ， 然 
后 应 用 到 模型 中 ， 发 现 生活 满意 度 大 约 是 4.85+22587x4.91x10 3 = 

5.96 ° 


为 了 激发 你 的 兴趣 ， 示 例 1-1 是 一 段 加 载 数据 的 Python 代 码 ， 包 括 准 备 


数据 中 ， 创 建 一 个 可 视 化 的 散 点 图 ， 然 后 训练 线性 模型 并 做 出 预测 。 
[7] 


示例 1-1: 使 用 Scikit-Learn 训 练 并 运行 一 个 线性 模型 


import matplotlib 

import matplotlib.pyplot as plt 
import numpy as np 

import pandas as pd 


import sklearn 


# Load the data 
oecd_bli = pd.read_csv("oecd_bli_2015.csv", thousands=', ') 
gdp_per_capita = pd.read_csv("gdp_per_capita.csv", thousands=',',delimiter='\t', 


encoding='latini', na_values="n/a") 


# Prepare the data 
country_stats = prepare_country_stats(oecd_bli, gdp_per_capita) 
X = np.c_[country_stats["GDP per capita"]] 


np.c_[country_stats["Life satisfaction" ]] 


< 
ll 


# Visualize the data 


country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction' ) 


plt.show() 


# Select a linear model 


lin_reg_model = sklearn.linear_model.LinearRegression() 


# Train the model 


lin_reg_model.fit(X, y) 


# Make a prediction for Cyprus 
X_new = [[22587]] # Cyprus' GDP per capita 


print(lin_reg_model.predict(X_new)) # outputs [[ 5.96242338] ] 


W 各 果 使 用 基于 实例 的 学 习 算法 你 会 发 现 斯 说 文 尼 亚 的 人 均 GDP 最 
接近 塞浦路斯 (20732 美 元 ， 而 经 合 组 织 的 数据 告诉 我 们 ， 斯 阁 文 尼 
亚 人 民 的 生活 满意 度 是 5.7， 因 此 你 很 可 能 会 预测 塞浦路斯 的 生活 满意 
度 为 5.7。 如 果 稍 微 拉 远 一 些 ， 看 看 两 个 与 之 最 接近 的 国家 一 一 葡萄 牙 
和 西班牙 的 生活 满意 度 分 别 为 5.1 和 6.5。 取 这 三 个 数值 的 平均 值 ， 得 到 
5.77， 这 也 非常 接近 你 基于 模型 预测 所 得 的 值 。 这 个 简单 的 算法 被 称 为 
k- 近 邻 回归 算法 〈 在 本 例 中 ，k=3) 。 要 将 前 面 代码 中 的 线性 回归 模型 
替换 为 k- 近 邻 回 归 模 型 非常 简单 ， 只 需要 将 下 面 这 行 代码 : 


clf = sklearn.linear_model.LinearRegression( ) 


BN: 


clf = sklearn.neighbors.KNeighborsRegressor(n_neighbors=3) 


如 采 一 切 顺 利 ， 你 的 模型 将 会 做 出 很 棒 的 预测 。 如 果 不 行 ， 你 可 能 需 
要 使 用 更 多 的 属性 〈 例 如 就 业 率 、 健 康 、 空 气 污染 等 ) ， 或 者 是 获得 
更 多 或 更 高 质量 的 训练 数据 ， 再 或 者 是 选择 一 个 更 强大 的 模型 (pil 
如 ， 多 项 式 回 归 模 型 ) 。 


简 而 言 之 : 
学 习 数 据 。 
选择 模型 。 


-使 用 训练 数据 进行 训练 ( 即 前 面 学 习 算 法 搜索 模型 参数 值 ， 从 而 使 成 
本 函数 最 小 化 的 过 程 ) 。 


最后， 应 用 模型 对 新 示例 进行 预测 ( 称 为 推断 ) ， 祈 铸模 型 的 泛 化 纺 


NTH ° 


以 上 束 是 一 个 典型 的 机 妖 学 习 项 目 ， 在 第 2 章 中 ， 你 还 将 通过 一 个 端 到 
端的 项 目 来 体验 这 一 切 。 


到 目前 为 止 ， 我 们 已 经 介绍 了 多 个 领域 : 你 已 经 知道 了 什么 是 真正 的 
机 如 学 习 ， 它 为 何 有 用 ， 机 絮 学 习 系 统 最 第 见 的 类 别 有 哪 些 ， 以 及 上 典 
型 的 项 目 工作 流程 。 现 在 让 我 们 看 看 你 在 学 习 过 程 中 可 能 会 遇 到 哪些 
阻碍 你 做 出 准确 预测 的 问题 。 


[1] 一 则 趣事 : 这 个 读 起 来 很 奇怪 的 名 字 (regression) 是 弗 兰 西 斯 :加 尔 
顿 提 出 的 统计 学 术语 ， 当 时 他 正 研究 一 个 现象 ， 那 就 是 高 个 父母 的 孩 
子 往往 比 他 们 要 矮 一 些 。 由 于 高 个 父母 的 孩子 在 变 矮 ， 他 就 把 这 个 趋 
舅 称 为 均 数 回归 © 后 来 这 个 名 词 束 被 他 用 于 分 析 变 量 之 间 相 关 性 的 方 


法 2 


[2] RE eS RARR FY Ce TC SAY, GOO E SBS ae 40 SZ BRB OK 
效 曼 机 ; 也 可 能 是 半 监 督 式 的 ， 例 如 深度 信念 网 络 和 无 监督 的 预 训 


BR o 


BIER E vee WU A RS HK FP), DN Be See A] BU E 
Mize SRN, SS o Ae et A] eA FSocher » Ganjoo ` Manning 
和 Ng(2013),，“T-SNE visualization of the semantic word space” ° 


[4 这 是 在 系统 完美 工作 的 情况 下 。 在 实践 中 ， 通 常会 为 每 个 人 创造 多 
个 集群 ， 有 时 也 会 混 消 两 个 看 起 来 相似 的 人 ， 因 此 你 需要 为 每 个 人 提 
供 多 个 标记 ， 同 时 手动 清理 一 些 集群 。 

[5] 按照 惯例 ， 通 常用 硕 腊 字母 6 来 表示 模型 参数 。 


[6] 这 段 代码 假定 prepare_country_stats () 已 经 被 定义 : 它 将 GDP 和 生 
活 满意 度数 据 合并 成 一 个 单独 的 Pandas dataframe ° 


[7] 如 果 你 无 法 完全 理解 所 有 的 代码 也 没有 关系 ， 我 们 将 在 后 面 的 章节 


中 详细 介绍 Scikit-Learn。 
Nase J AEB PEAY 


简单 来 说 ， 由 于 你 的 主要 任务 是 选择 一 种 学 习 算法 ， 并 对 某 些 数据 进 
行 训练 ， 所 以 最 可 能 出 现 的 两 个 问题 不 外 平 是 “ 坏 算法 * 和 “ 坏 数据 "， 让 
我 们 先 从 坏 数据 开始 


训练 数据 的 数量 不 足 


要 教 一 个 牙牙 学 语 的 小 朋友 什么 是 荚果， 你 只 需要 指 着 苹果 说 “ 荚 
果 ”( 可 能 需要 重复 这 个 过 程 几 次 ) 就 行 了 ， 然 后 孩子 就 能 够 识别 各 种 
颜色 和 形状 的 苹 末 了， 信 直 十 天 才 ! 

机 器 学 习 还 没 达到 这 一 步 ， 大 部 分 机 右 学 习 算法 需要 大 量 的 数据 才能 
正常 工作 。 即 使 是 最 简单 的 问题 ， 很 可 能 也 需要 成 千 上 万 个 示例 ， 而 
对 于 诸如 图 像 或 语音 识别 等 复杂 问题 ， 则 可 能 需要 上 于 万 个 示例 ( 除 
非 你 可 以 重用 现 有 模型 的 茶 些 部 分 ) 。 


数据 的 不 合理 有 效 性 


在 2001 年 发 表 的 一 篇 著名 论文 中 ， 微 软 研究 员 Michele Banko 和 Eric 
Brill 表 明 ， 和 截然 不 同 的 机 器 学 习 算 法 (包括 相当 简单 的 算法 ) 在 自然 语 
ele H- 这 个 复杂 问题 上 上， 表现 几乎 完全 一 致 (如 图 1-20 所 
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图 1-20: 数据 对 算法 的 重要 性 加 


正如 作者 所 说 : “这 些 结果 表明 ， 我 们 可 能 会 重新 思考 如 何在 二 者 之 间 
pra 将 钱 和 时 间 花 在 算法 的 开发 上 ， 还 是 花 在 语料库 的 建设 


对 复 杀 问题 而 言 ， 数 据 比 算法 更 重要 ， 这 一 想法 被 Peter Norvig 等 人 进 
一 步 推 广 ， 于 2009 年 发 表 论 文 《 数 据 的 不 合理 有 效 性 》 路。 不 过 和 需要 
指出 的 是 ， 中 小 型 数据 集 依然 非常 普 裔 ， 获 得 额外 的 训练 数据 并 不 忌 
古 一 件 轻 而 易 举 或 物美 价 廉 的 事情 ， 所 以 暂时 先 不 要 抛弃 算法 。 


训练 数据 不 具 代 表 性 


为 了 很 好 地 实现 泛 化 ， 至 关 重 要 的 一 点 是 ， 对 于 将 要 泛 化 的 新 示例 来 
说 ， 训 练 数据 一 定 要 非常 有 代表 性 。 不 论 你 使 用 的 是 基于 实例 的 学 习 
还 十 基于 模型 的 学 习 ， 痢 是 如 此 。 


例如 ， 前 面 我 们 用 来 训练 线性 模型 的 国家 数据 集 并 不 具备 完全 的 代表 
性 ， 有 部 分 国家 的 数据 缺失 。 图 1-21 显 示 了 补充 缺失 国家 /地 区 信息 之 
后 的 数据 表现 。 
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图 1-21: 一 个 更 具 代 表 性 的 训练 样 例 


如 琳 你 用 这 个 数据 集训 练 线性 模型 ， 将 会 得 到 图 中 的 实 线 ， 而 虚线 表 
示 旧 模型 。 正 如 你 所 见 ， 添 加 部 分 缺失 的 国家 信息 不 仅 显 著 地 改变 了 


ERAS, (Ye Re, CE RA n eA NAB A E o aE 
来 ， 茶 些 非 常 富 容 的 国家 并 不 比 中 等 宽容 国家 幸福 (事实 上 ， 看 起 来 
-i , RZ, SETA AeA HETS EAEE 


(EH DRRR EIYE RVR RATER AL AS n] BEAR EITE, È 
HEE AEREI AA RERED EAE o 


针对 你 想 有 要 泛 化 的 案例 使 用 具有 代表 性 的 训练 集 ， 这 一 点 至 天 重要 。 

不 过 说 起 来 容易 ， 做 起 来 难 : 如 采样 本 集 太 小 ， 将 会 出 现 采 样 噪声 
( 即 非 代表 性 数据 被 选中 ) ; 而 即便 是 非常 大 的 样本 数据 ， 如 果 采 样 

方式 炙 妥 ， 也 同样 可 能 导致 非 代表 性 数据 集 ， 这 束 古 所 请 的 采样 仿 


差 


关于 采样 偏差 的 一 个 著名 案例 


最 著名 的 采样 偏差 的 案例 ， 发 生 在 1936 年 美国 总 统 大 选 期 间 ， 兰 登 对 
决 罗 斯 福 。《Literary Digest》 当 时 举行 了 一 次 非常 大 范围 的 民意 调 
查 ， 向 约 1000 万 人 发 送 邮件 ， 并 得 到 了 240 万 个 回复 ， 因 此 做 出 了 高 度 
自信 的 预言 一 一 兰 登 将 获得 57% 的 选票 。 


结 末 恰恰 相反 ， 罗 斯 福 顾 得 了 62% 的 选票 。 问题 束 在 于 《Literary 
Digest》 的 采样 方式 : 


首先， 为 了 获取 发 送 民意 调查 的 地 址 ，《Literary Digest) XH T Ew 
筹 、 杂 志 订 阅 名 单 、 俱 乐 部 会 员 名 单 等 类 似 名 筹 。 而 所 有 这 些 名 单 上 
的 人 往往 对 富 人 有 更 大 的 偏好 ， 也 就 更 有 可 能 支持 共和 党 (BP = 


登 ) 


-其 次 ， 收 到 民意 调查 邮件 的 人 中 ， 不 到 25% 的 人 给 出 了 回复 。 这 再 次 
引入 了 采样 偏差 ， 那 些 不 怎么 关心 政治 的 人 ， 不 喜欢 《Literary 
Digest》 的 人 以 及 其 他 的 一 些 关 键 群 体 直 接 和 要 排除 在 外 了 “。 这 走 一 种 特 
殊 类 型 的 采样 偏差 ， 叫 作 无 反应 偏差 。 


再 淮 一 个 例子 ， 假 设 你 想 创建 一 个 系统 用 来 识别 funk 音 乐 视频 。 构 建 训 
练 集 的 方法 之 一 是 直接 在 YouTube 上 搜索 “funk music”， 然 后 使 用 搜索 

结果 的 视频 。 但 是 ， 这 其 实 基于 一 个 假设 一 一 YouTube 的 搜索 引擎 返回 
的 视频 结果 ， 是 所 有 能 够 代表 funk 首 乐 的 视频 。 而 实际 的 搜索 结果 可 能 


会 更 偏向 于 当前 流行 的 音乐 人 (如 果 你 住 在 巴西 ， 你 会 得 到 很 多 关 
于 “funk carioca” 的 视频 ， 这 上 听 起 来 跟 James Brown 完 全 不 是 一 回 事 ) A 
。 另 一 方面 来 讲 ， 你 还 能 怎样 获得 更 大 的 训练 集 呢 ? 


质量 差 的 数据 

TA, WRU eR RAR 〈 例 如， 差 质量 的 测量 产 
生 的 数据 ) ， 系 统 将 更 难 检测 到 低层 模式 ， 更 不 太 可 能 表现 展 好。 所 
以 花 时 间 来 清理 训练 数据 是 非常 值 得 的 投入 。 事 实 上 ， 大 多 数 数据 科 
学 家 部 会 化 费 很 大 一 部 分 时 间 来 做 这 项 工作 。 例 如 : 


如 来 某 些 实例 明显 是 异常 情况 ， 要 么 直接 将 其 丢弃 ,要么 尝试 手动 修 
FEA, MAKAA o 

-如 果 某 些 实例 缺少 部 分 特征 〈 例 如 ，5% 的 顾客 没有 指定 年 龄 ) ， 你 必 
须 决定 是 整体 忽略 这 些 特 征 ， 还 是 忽略 这 部 分 有 缺失 的 实例 ， 又 或 者 
是 将 缺失 的 值 补 充 完整 (例如 ， 填 写 年 龄 值 的 中 位 数 ) ， 或 者 是 训练 
一 个 冲 这 个 特征 的 模型 ， 再 训练 一 个 不 市 这 个 特征 的 模型 ， 等 等 。 
无 天 特征 

正如 我 们 第 说 的 :垃圾 入 ， 垃 圾 出 。 只 有 训练 数据 里 包含 足够 多 的 相 
天 特征 ， 以 及 较 少 的 无 天 特征 ， 系 统 才能 够 完成 学 习 。 一 个 成 功 的 机 
妖 学 习 项 目 ， 关 键 部 分 是 提取 出 一 组 好 的 用 来 训练 的 特征 集 ， 这 个 过 
程 叫 作 特征 工程 ， 包 括 以 下 几 点 。 

:特征 选择 : 从 现 有 特征 中 选择 最 有 用 的 特征 进行 训练 。 


-特征 提取 :将 现 有 特征 进行 整合 ， 产 生 更 有 用 的 特征 (正如 前 文 提 到 
的 ， 降 维 算法 可 以 提供 帮助 ) 。 


通过 收集 新 数据 创造 新 特征 。 
现在 我 们 已 经 看 了 不 少 “ 坏 数据 ”的 例子 ， 再 来 看 几 个 “ 坏 算法 ”的 例子 。 
训练 数据 过 度 拟 合 


假设 你 正在 国外 旅游 ， 被 出 租车 司机 狠 窟 了 一 刀 ， 你 很 可 能 会 说 ， 那 
个 国家 的 所 有 出 租车 司机 都 是 强盗 。 过 度 概 括 是 我 们 人 类 常 做 的 事 
情 ， 不 骏 的 古 ， 如 来 我 们 不 小 心 ， 机 器 很 可 能 也 会 陷入 同样 的 陷阱 。 
在 机 器 学 习 中 ， 这 称 为 过 度 拟 合 ， 也 束 古 指 模型 在 训练 数据 上 表现 民 
好 ， 但 是 泛 化 时 却 不 尽 如 人 意 。 


图 1-22 显 示 了 一 个 与 训练 数据 过 度 拟 合 的 、 高 阶 多 项 式 的 生活 满意 度 模 
型 。 昌 然 它 在 训练 数据 上 的 表现 比 简单 的 线性 模型 要 好 得 多 ， 但 是 你 
真 的 敢 相信 它 的 预测 吗 ? 
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图 1-22: 训练 数据 过 度 拟 合 


诸如 深度 神经 网 络 这 类 的 复杂 模型 可 以 检测 到 数据 中 的 微小 模式 ， 如 
果 训 练 集 本 身 是 别 杂 的 ， 或 者 说 数据 集 太 小 (会 导致 采样 噪声 ) ， 那 
么 很 可 能 会 导致 模型 检测 噪声 里 的 模式 。 很 显然 ， 这 些 模式 不 能 泛 化 
至 新 的 实例 。 举 例 来 说 ， 假 设 你 给 你 的 生活 满意 度 模 型 提供 了 更 多 其 
他 的 属性 ， 包 括 一 些 不 具 信 息 的 属性 例如 国家 的 名 字 。 在 这 种 情况 

F, 一 个 复杂 模型 可 能 会 检测 到 这 样 的 事实 模式 ， 训练 数据 中 ， 名 字 
中 带 有 字母 W 的 国家 ， 如 新 西 兰 (New Zealand， 生 活 满意 度 为 7.3) > 
挪威 (Norway， 生 活 满意 度 为 7.4) 、 瑞 典 (Sweden， 和 生活 满意 度 为 

7.2) 和 瑞士 (Switzerland， 生 活 满意 度 为 7.5) ， 和 生活 满意 度 大 于 7。 当 
把 这 个 W 规 则 泛 化 到 卢旺达 (Rwanda) 或 津巴布韦 (Zimbabwe) 时 ， 


你 对 结果 有 多 大 的 自信 ? 显然 ， 训 练 数据 中 的 这 个 模式 仅仅 是 偶然 产 
生 的 ,但 是 模型 无 法 判断 这 个 模式 古 真 实 的 ， 还 是 噪声 产生 的 结果 。 


众 、 当 本 型 相对 于 训 红 数据 的 数量 和 品 度 者 过 于 复杂 时 ， 会 发 生 过 度 
拟 合 。 可 能 的 解决 方案 如 下 。 


-简化 模型 : 可 以 选择 较 少 参数 的 模型 例如， 选择 线性 模型 而 不 是 高 
阶 多 项 式 模型 ) ， 可 以 减少 训练 数据 中 的 属性 数量 ， 又 或 者 是 约束 模 


型 。 
-收集 更 多 的 训练 数据 。 
:减少 训练 数据 中 的 噪声 例如， 修复 数据 错误 和 消除 异常 值 ，。 


通过 约束 模型 使 其 更 简单 ， 并 降低 过 度 拟 合 的 风险 ， 这 个 过 程 称 为 正 
则 化 。 例 如 ， 我 们 前 面 定 义 的 线性 模型 有 两 个 参数 ，90 和 9091。 因此 ， 
该 算法 在 拟 合 训练 数据 时 ， 调 整 模型 的 自由 度 束 等 于 2:， 它 可 以 调整 线 
的 高 度 (90) 和 和 斜率 (91) 。 如 有 果 我 们 强行 让 9 1 =0， 那 么 算法 的 上 自 
由 度 将 会 降 为 7， 并且 其 拟 合 数 据 将 变 得 更 为 艰难 一 一 它 能 做 的 全 部 就 
只 是 将 线 上 移 或 下 移 来 尽量 接近 训练 实例 ， 最 后 极 有 可 能 停留 在 平均 
值 附近 。 这 确实 太 价 单 了 ! 如 来 我 们 允许 算法 修改 61， 但 是 我 们 强制 
它 只 能 是 很 小 的 值 ， 那 么 算法 的 自由 度 将 位 于 1 和 2 之 间 ， 这 个 模型 将 
会 比 自由 度 为 2 的 模型 稍微 简单 一 些 ， 同 时 又 比 自 由 度 为 1 的 模型 略微 
复杂 一 些 。 你 需要 在 完美 匹配 数据 和 保持 模型 简单 之 间 找 到 合适 的 平 
衡 点 ， 从 而 确保 模型 能 够 较 好 地 泛 化 。 


图 1-23 显 示 了 三 个 模型 : 监 色 虚 线 代 表 一 开始 的 原始 模型 ， 也 束 是 缺失 
部 分 国家 的 数据 ; 红色 虚线 代表 用 所 有 国家 数据 训练 的 第 二 个 模型 ; 
实 线 代表 的 模型 与 第 一 个 模型 使 用 的 训练 数据 相同 ， 但 是 应 用 了 正则 
化 的 约束 。 我 们 可 以 看 出 通过 正则 化 使 得 模型 具有 较 小 的 和 斜率， 这 里 
“aa 0 
实例 。 


- - 基于 所 有 数据 的 线性 模型 CEES) 

基于 部 分 数据 的 线性 模型 (KEEB) 
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图 1-23: 通过 正则 化 降低 过 度 拟 合 的 风险 


在 学 习 时 ， 应 用 正则 化 的 程度 可 以 通过 一 个 超 参 数 来 控制 。 超 参数 是 
学 习 算 法 (不 是 模型 ， 的 参数 。 因 此 ， 它 不 受 算法 本 和 喘 的 影响 ， 它 必 
须 在 训练 之 前 设置 好 ， 并 且 在 训练 期 间 祭 持 不 变 。 如 来 将 正则 化 超 参 
数 设 置 为 非常 大 的 值 ， 会 得 到 一 个 几乎 平坦 的 模型 (斜率 接近 零 ) ; 
学 习 算 法 虽然 肯定 不 会 过 度 拟 合 训练 数据 ， 但 是 也 更 加 不 可 能 找到 一 
个 好 的 解决 方案 。 调 整 超 参 数 是 构建 机 器 学 习 系 统 非 常 重要 的 组 成 部 
分 〈 将 在 下 一 章 中 详细 举例 ) 。 


训练 数据 拟 合 不 足 

你 可 能 已 经 猜 到 了 ， 拟 合 不 足 和 过 度 拟 合 正 好 相反 : 它 的 产生 通常 是 
因为 ， 对 于 下 技 的 数据 结构 来 说 ， 你 的 模型 太 过 侧 单 。 举 个 例子 ， 用 
线性 模型 来 描述 生活 满意 度 就 属于 拟 合 不 足 ， 现 实情 况 远 比 模 型 复杂 
得 多 ， 所 以 即便 是 对 于 用 来 训练 的 示例 ， 该 模型 产生 的 预测 都 一 定 是 
不 准确 的 。 

解决 这 个 问题 的 主要 方式 有 : 

选择 一 个 市 有 更 多 参数 、 更 强大 的 模型 

-给 学 习 算法 提供 更 好 的 特征 集 (特征 工程 ) 


:减少 模型 中 的 约束 比如， 减少 正则 化 超 参数 ) 
退 后 一 步 


现在 你 已 经 对 机 器 学 习 有 了 一 些 了 解 。 不 过 讲 了 这 么 多 概念 ， 你 可 能 
有 点 营 ， 我 们 蹇 且 退 后 一 步 ， 纵 观 一 下 全 局 : 


-机 右 学 习 古 天 于 如 何 让 机 右 可 以 更 好 地 处 理 菏 些 特定 任务 的 理论 ， 它 
从 数据 中 学 习 ， 而 不 是 将 规则 进行 清晰 的 编码 。 


Hla FIARRARS RA: 监督 式 和 无 监督 式 ， 批 量 的 和 在 线 的 ， 基 
于 实例 的 和 基于 模型 的 ， 等 等 。 


-在 一 个 机 槛 学习 项 目 中 ， 你 从 训练 集中 采集 数据 ， 然 后 将 数据 交 给 学 
习 算法 来 计算 。 如 末 算 法 是 基于 模型 的 ， 它 会 调整 一 些 参 数 来 将 模型 
适 配 于 训练 集 ( 即 对 训练 集 本 身 做 出 很 好 的 预测 ，  ， 然 后 算法 就 可 以 
对 新 的 场景 做 出 合理 的 预测 。 如 有 果 算 法 是 基于 实例 的 ， 它 会 记 住 这 些 
样 例 ， 并 根据 相似 度 来 对 新 的 实例 进行 泛 化 。 


:如果 训练 集 的 数据 太 少 ， 数 据 代 表 性 不 够 ， 包 含 太 多 噪声 或 者 是 被 一 
些 无 关 特征 污染 MRE, MRE) ， 那 么 系统 将 无 法 很 好 地 工作 。 
最 后 ， 你 的 模型 既 不 能 太 简 单 〈《 这 会 导致 拟 合 不 足 ) ， 也 不 能 太 复 杂 
(这 会 导致 过 度 拟 合 ) 。 

还 有 最 后 一 个 要 讲 的 重要 主题 是 ;在 训练 好 了 一 个 模型 之 后 ， 你 不 能 
只 是 “希望 > 它 可 以 正确 地 对 新 的 场景 做 出 泛 化 。 你 还 需要 评估 它 ， 必 
要 时 做 出 一 些 调整 。 现 在 我 们 看 看 怎么 做 到 这 一 点 。 

(1) 例如， 到 睁 该 写成 “to”too”， 还 是 “two”， 完 全 取决 于 上 下 文 。 


[2]. 图 片 转载 经 Banko 和 Brill 的 许可 ，“Learmnming Curves for Confusion Set 
Disambiguation”, 2001° 


[3]_“The Unreasonable Effectiveness of Data” , Peter Norvig 等 人 
(2009) ° 


[4]_funk carioca TE AARE, fea Chip hop» AFR ARRI 
House 音 乐 ， 具 有 独特 狂热 的 节拍 ， 与 传统 的 funk 音 乐 很 不 一 样 。 而 
James Brown 是 funk 音 乐 的 代表 人 物 。 


测试 与 验证 


了 解 一 个 模型 对 于 新 场景 的 泛 化 能 力 的 唯一 办 法 就 是 ， 让 模型 真实 地 
去 处 理 新 场景 。 做 法 之 一 是 将 其 部 署 在 生产 环境 ， 然 后 监控 它 的 输 
出 。 这 个 方法 用 起 来 不 错 ， 不 过 如 采 模 型 非常 糟 糙 ， 你 的 用 户 天 会 想 
圭一 一 所 以 这 显然 不 生 最 好 的 办 法 。 


更 好 的 选择 羡 将 你 的 数据 分 割 成 两 部 分 : 训练 集 和 测试 集 。 顾 名 思 
义 ， 你 可 以 用 训练 集 的 数据 来 训练 模型 ， 然 后 用 测试 集 的 数据 来 测试 
模型 。 应 对 新 场景 的 误差 率 称 为 泛 化 误差 (或 者 样 例外 误差 ， 通 过 
测试 集 来 评估 你 的 模型 ， 束 可 以 得 到 对 这 个 误 兰 的 评 佑 。 这 个 佑 值 可 
以 告诉 你 ， 你 的 模型 在 处 理 新 场景 时 的 能 力 如 何 。 


如 果 训 练 误差 很 低 (模型 对 于 训练 集 来 说 很 少 出 错 ) ， 但 是 泛 化 误差 
很 高 ， 那 说 明 你 的 模型 对 于 训练 数据 存在 过 度 拟 合 。 


A TEs EA 806 DRE TUNER, RE RAIAR ° 


所 以 评估 一 个 模型 很 商 单 : ASAT T° SLE RTE RE 
(一 个 线性 模型 和 一 个 多 项 式 模型 ) 之 间 犹 豫 不 决 : 如 何 做 出 判断 
We? 做 法 是 训练 两 个 模型 ， 然 后 对 比 它们 对 测试 数据 的 泛 化 能 


现在 让 我 们 假设 线性 模型 的 泛 化 能 力 更 强 ， 但 是 你 想 要 应 用 一 些 正则 
化 来 避免 过 度 拟 合 。 问 题 义 来 了 ， 你 要 如 何 选 择 正则 化 超 参数 的 值 
W? 做 法 之 一 是 使 用 100 个 不 同 的 超 参数 值 来 训练 100 个 不 同 的 模型 。 
人 
ZN, HiX1X5% ° 
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问题 出 在 你 对 测试 集 的 泛 化 误差 进行 了 多 次 度量 ， 并 且 调 整 模 型 和 超 
参数 来 得 到 拟 合 那个 测试 集 的 最 佳 模型 。 这 意味 着 该 模型 对 于 新 的 数 
据 不 太 可 能 有 民 好 的 表现 。 


常见 的 解决 方案 是 再 单独 分 出 来 一 个 伯 留 集合 ， 称 为 验证 集 。 在 训练 
集 上 ， 使 用 不 同 的 超 参 数 训 练 多 个 模型 ， 然 后 通过 验证 集 ， 选 择 最 好 


的 那个 模型 和 对 应 的 超 参数 ， 当 你 对 模型 基本 满意 之 后 ， 再 用 测试 集 
运行 最 后 一 轮 测试 ， 并 得 到 泛 化 误差 的 估 值 。 


为 了 避免 验证 集 “ 浪 费 ” 太 多 的 训练 数据 ， 和 常见 的 技术 是 使 用 交叉 验 
证 : 将 训练 集 分 成 看 干 个 互补 子 集 ， 然 后 每 个 模型 都 通过 这 些 子 集 的 
不 同 组 合 来 进行 训练 ， 之 后 用 剩余 的 子 集 进行 验证 。 一 旦 模型 和 超 参 
数 都 被 计 定 ， 最 终 的 模型 会 市 厦 这 些 超 参数 对 整个 训练 集 进 行 一 次 训 
练 ， 最 后 再 用 测试 集 测 量 沁 化 误差 。 


没有 免费 的 午餐 (No Free Lunch) 定理 


模型 是 观察 的 简化 。 这 个 简化 是 丢弃 了 那些 不 大 可 能 泛 化 至 新 实例 上 
的 多 余 细 了 。 但 是 ， 要 决定 丢弃 哪些 数据 以 及 保留 哪些 数据 ， 你 必须 
要 做 出 假设 。 比 如 ， 线 性 模型 基于 的 假设 吏 是 一 一 数据 基本 上 都 是 线 
性 的 ， 而 实例 与 直线 之 间 的 距离 都 只 是 噪声 ， 可 以 安全 地 名 略 它 们 。 


1996 年 David Wolpert 在 一 篇 著名 论文 中 (http:/goo.gL3zaHIZ ) H% 
明 ， 如 果 你 对 数据 绝对 没有 任何 假设 ， 那 么 你 没有 理由 会 更 偏好 于 某 
个 模型 。 这 称 为 没有 免费 午餐 (No Free Lunch NFL) 定理 。 对 有 的 数 
据 集 来 说 ， 最 佳 模 型 是 线性 模型 ， 而 对 于 其 他 数据 集 来 说 ， 最 佳 模型 
可 能 是 神经 网 络 模型 。 不 存在 一 个 先 验 模型 能 保证 一 定 工作 得 更 好 

(这 正 是 定理 名 称 的 由 来 ) 。 想 要 知道 哪个 模型 最 好 的 方法 就 是 对 所 
有 模型 进行 评估 ， 但 实际 上 这 是 不 可 能 的 ， 因 此 你 会 对 数据 做 出 一 些 
合理 的 假设 ， 然 后 只 评估 部 分 合理 的 模型 。 比 如 ， 对 于 简单 的 任务 ， 

你 可 能 只 会 评估 几 个 具有 不 同 正则 化 水 平 的 线性 模型 ， 而 对 于 复杂 问 
题 ， 你 可 能 会 评估 多 个 神经 网 络 模型 。 


[1]_“The Lack of A Priori Distinctions Between Learning Algorithms” , 
D.Wolperts (1996) ° 


练习 

本 章 中 ， 我 们 提 及 了 机 器 学 习 中 最 重要 的 一 些 概念 。 下 一 章 ， 我 们 将 
会 进行 更 深入 的 探讨 ， 也 会 写 更 多 代码 ， 但 是 在 那 之 前 ， 请 先 确保 你 
已 经 知道 如 何 回 答 下 列 问题 : 


LR EZ RE SNL ae FHI? 


2S Lee >) ZEB EE [Ale EES, IRB eH DO RSS ABS? 

3. 什 么 是 被 标记 的 训练 数据 集 ? 

4. 最 第 见 的 两 种 监督 式 学 习 任务 是 什么 ? 

5. 你 能 举 出 四 种 闻 见 的 无 监督 式 学 习 任 务 吗 ? 

6. 要 让 一 个 机 器 人 在 各 种 未 知 的 地 形 中 行走 ， 你 会 使 用 什么 类 型 的 机 器 


学 习 算 法 ? 

7. 要 将 顾客 分 成 多 个 组 ， 你 会 使 用 什么 类 型 的 算法 ? 

8. 你 会 将 垃圾 邮件 检测 的 问题 列 为 监督 式 学 习 还 是 无 监督 式 学 习 ? 
OAT A ETERS) AS? 

10. 什 么 是 核 外 学 习 ? 

11. 什 么 类 型 的 学 习 算法 依赖 相似 度 来 做 出 预测 ? 

12. 模 型 参数 与 学 习 算 法 的 超 参 数 之 间 有 什么 区 别 ? 


13. 基 于 模型 的 学 习 算法 搜索 的 是 什么 ? 它们 最 第 使 用 的 策略 是 什么 ? 
它们 如 何 做 出 预测 ? 


14. 你 能 提出 机 如 学习 中 的 四 个 主要 挑战 吗 ? 


15. 如 条 你 的 模型 在 训练 数据 上 表现 很 好 ， 但 是 应 用 到 痢 的 实例 上 的 泛 
化 结果 却 很 糟糕 ， 是 怎么 回 事 ? 能 提出 三 种 可 能 的 解决 方案 吗 ? 


16. 什 么 是 测试 集 ， 为 什么 要 使 用 测试 集 ? 
17. 验 证 集 的 目的 十 什么 ? 

18. 如 果 使 用 测试 集 调 整 超 参 数 会 出 现 什 么 问题 ? 
19. 什 么 是 交叉 验证 ? 它 为 什么 比 验证 集 更 好 ? 
以 上 练习 题 的 答案 见 附录 A。 


第 2 章 Mn El MA Las H 


在 本 章 中 ， 你 将 经 历 一 个 端 到 端的 项 目 案 例 ， 假 设 你 是 一 个 房地产 公 
司 册 最 近 新 雇佣 的 数据 科学 家 ， 以 下 是 你 将 会 经 历 的 主要 步骤 


1. 观 察 大 局 。 

2. 获 得 数据 。 

3. 从 数据 探索 和 可 视 化 中 获得 洞 见 
4. 机 器 学 习 算法 的 数据 准备 。 

5. 选 择 和 训练 模型 。 

6. 微 调 模型 。 

7. 展 示人 解决 方案 。 

8. 司 动 、 监 控 和 维护 系统 


[1] 项 目 案例 纯 属 虚构 ， 目 的 仅仅 是 为 了 说 明 机 融 学 习 项 目的 主要 步 
桑 ， 而 不 是 为 了 了 解 房 地 产业 务 。 


便 用 真实 数据 
学 习 机 器 学 习 最 好 使 用 真实 数据 进行 实验 ， 而 不 仅仅 是 人 工 数据 集 。 
我 们 有 成 千 上 万 覆盖 了 各 个 领域 的 开放 数据 集 可 以 选择 。 以 下 是 一 些 
可 以 获得 数据 的 地 方 : 


流行 的 开放 数据 存储 库 : 


-UC Irvine Machine Learning Repository (_http://archive.ics.uci.edu/ml/_) 
.Kaggle datasets (_https://www.kaggle.com/datasets ) 
-Amazon’s AWS datasets (_http://aws.amazon.com/fr/datasets/ ) 


:元 门户 站 点 〈 它 们 会 列 出 开放 的 数据 存储 库 ) : 


- http://dataportals.org/_ 


- http://opendatamonitor.eu/ 


- http://quandl.com/ 


-其 他 一 些 列 出 许多 流行 的 开放 数据 存储 库 的 页 面 : 
-Wikipedia’s list of Machine Learning datasets (_https://g00,g1/SJHN2k ) 


-Quora.com question (http://g00.g1/ZDR78y_) 
‘Datasets subreddit (_https://www.reddit.com/r/datasets ) 


本 章 我 们 从 StatLib 库 由 中 选择 了 加 州 住房 价格 的 数据 集 ( 见 图 2-1) 。 
该 数据 集 基 于 1990 年 加 州 人 口 普 查 的 数据 。 虽 然 不 算是 最 新 的 数据 

(当时 你 还 能 负担 得 起 一 个 湾 区 的 好 房子 ) ， 但 是 有 很 多 可 以 学 习 的 
特质 ， 所 以 我 们 束 假 定 这 就 是 最 新 的 数据 吧 。 出 于 教学 目的 ， 我 们 还 
特意 添加 了 一 个 分 类 属性 ， 并 且 移 除 了 一 些 特征 。 


-124 -122 -120 -118 -116 -114 


纬度 


图 2-1: 加 州 住房 价格 


[原始 的 数据 集 来 和 目 于 R.KElly Pace 和 Ronald Barry 的 “Sparse Spatial 
Autoregressions”， Statistics & Probability Letters 33, no.3 (1997) 
291-297 ° 


观察 大 局 
欢迎 来 到 机 器 学 习 房 产 公司 | 你 要 做 的 第 一 件 事 是 使 用 加 州 人 口 普查 


的 数据 建立 起 加 州 的 房价 模型 。 数 据 中 有 许多 指标 ， 诸 如 每 个 街区 的 
人 口 数量 、 收 入 中 位 数 、 房 价 中 位 数 等 。 街 区 是 美国 人 口 普查 局 发 布 


样本 数据 的 最 小 地 理 单 位 〈 一 个 街区 通常 人 口 数 为 600~3000 人 ) 。 这 
里 ， 我 们 将 其 简称 为 “< 区域”。 


你 的 模型 需要 从 这 个 数据 中 学 习 ， 从 而 能 够 根据 所 有 其 他 指标 ， 预 测 
任意 区 域 的 房价 中 位 数 。 


全 如 果 你 是 一 各 习惯 良好 的 数据 科学 家 ， 你 要 做 的 第 一 件 事 应 该 是 
出 机 器 学 习 项 目 清单 。 你 可 以 从 附录 B 中 的 清单 项 开始 ， 它 适合 绝 大 多 
数 机 器 学 习 项 目 ， 但 还 是 要 确保 它 适合 你 的 需求 。 本 革 我 们 将 会 讨论 
这 个 清单 中 的 部 分 内 容 ， 但 也 会 跳 过 一 部 分 ， 有 些 是 因为 不 需要 多 做 
解释 ， 有 些 是 因为 在 后 面 的 章 下 中 会 展开 讨论 。 


框架 问题 


你 问 老 板 的 第 一 个 问题 ， 应 该 是 询问 业务 目标 是 什么 ， 因 为 建立 模型 
本 号 可 能 不 是 最 终 的 目标 。 公 司 期 望 知道 如 何 使 用 这 个 模型 ， 如 何 从 
Paka? 这 才 是 重要 的 问题 ， 因 为 这 将 决定 你 坚 么 设 定 问题 ， 选 择 什 
么 算法 ， 使 用 什么 测量 方式 来 评估 模型 的 性 能 ， 以 及 应 该 花 多 少 精力 
来 进行 调整 。 

老板 回答 说 ， 这 个 模型 的 输出 (对 一 个 区 域 房 价 中 位 数 的 预测 ， 将 会 
跟 其 他 许多 信号 出 一 起 被 传输 给 另 一 个 机 器 学 习 系 统 ( 见 图 2-2) 。 而 
这 个 下 游 系统 将 收 用 来 决策 一 个 给 定 的 区 域 是 否 值得 投资 。 因 为 直接 
影响 到 收益 ， 所 以 正确 获得 这 个 信息 至 天 重要 。 


区 域 数 据 区 域 价格 数据 投资 


图 2-2: 一 个 针对 房地产 投资 的 机 右 学 习 流 水 线 
流水 线 


一 个 序列 的 数据 处 理 组 件 称 为 一 个 数据 流水 线 (Pipeline) 。 流 水 线 在 
ee ee eee a 
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组 件 通常 古 异 步 运行 。 每 个 组 件 拉 取 大 量 的 数据 ， 然 后 进行 处 理 ， 表 
将 结 末 传输 给 男 一 个 数据 仓库 ;一 段 时 间 之 后 ， 流 水 线 中 的 下 一 个 组 
件 会 拉 取 前 面 的 数据 ， 并 给 出 目 己 的 输出 ， 以 此 类 推 。 每 个 组 件 都 很 
独立 : 组 件 和 组 件 之 间 的 连接 只 有 数据 仓库 。 这 使 得 整个 系统 非常 简 
Bile (在 数据 流 图 表 的 帮助 下 ， 不 同 团队 可 以 专注 于 不 同 的 组 件 
上 上 。 如 果 某 个 组 件 发 生 故 障 ， 它 的 下 游 组 件 还 能 使 用 前 面 的 最 后 一 个 
rl A eee ee te 
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要 向 老板 询问 的 第 二 个 问题 ， 是 当前 的 解决 方案 (如 果 有 的 话 ) 。 你 
可 以 将 其 当 作 参考 ， 也 能 从 中 获得 解决 问题 的 洞察 。 老 板 回答 谤 ， 现 
在 是 由 专家 团队 在 手动 估算 区 域 的 住房 价格 一 一 一 个 团队 持续 收集 最 


新 的 区 域 信 息 〈 不 包括 房价 中 位 数 ) ， 然 后 使 用 复杂 的 规则 来 进行 估 
算 。 既 昂 贯 又 耗 时 ， 而 且 估 算 结果 还 不 令 人 满意 ， 显 著 误差 率 高 达 
15% ° 


好 的 ， 有 了 这 些 信息 ， 你 现在 可 以 开始 设计 系统 了 人。 首先 ， 你 需要 回 
答 框架 问题 : EST? 还 是 无 监督 式 ? 又 或 者 是 强化 学 习 ? 是 分 类 
任务 、 回 归 任 务 还 是 其 他 任务 ? 应 该 使 用 批量 学 习 还 是 在 线 学 习 技 
术 ? 在 继续 阅读 之 前 ， 请 先 暂停 一 会 儿 ， 兴 试 回答 一 下 这 些 问题 。 


找到 答案 了 吗 ? 我 们 来 看 看 : 显然 ， 这 是 一 个 典型 的 监督 式 学习 任 
务 ， 因 为 已 经 给 出 了 标记 的 训练 示例 〈 每 个 实例 都 有 预期 的 产 出 ， 也 
就 是 该 地 区 的 房价 中 位 数 ) 。 并 且 这 也 是 一 个 典型 的 回归 任务 ， 因 为 
你 要 对 某 个 值 进行 预测 。 更 具体 地 说 ， 这 是 一 个 多 变量 回归 问题 ， 
为 系统 要 使 用 多 个 特征 进行 预测 (使 用 到 区 域 的 人 口 、 收 入 中 位 数 
等 ) 。 在 第 1 革 预 测 生 活 满意 度 时 ， 我 们 仅 基 于 人 均 GDP 这 一 个 特征 ， 
所 以 那 是 一 个 单 变量 回归 问题 。 最 后 ， 我 们 没有 一 个 连续 的 数据 流 不 
断 流 进 系统 ， 所 以 不 需要 针对 变化 的 数据 做 出 特别 调整 ， 数 据 量 也 不 
征 很 大 ， 不 需要 多 个 内 存 ， 所 以 简单 的 批量 学 习 应 该 就 能 胜任 。 


全 如 果 数 据 量 巨大 你 可 以 将 批量 学 习 工 作 分 到 多 个 服务 器 (利用 
MapReduce 技 术 ， 后 面 将 会 介绍 ) ， 也 可 以 使 用 在 线 学 习 技 术 。 


选择 性 能 指标 


接 下 来 是 要 选择 一 个 性 能 衡量 指标 。 回 归 问 题 的 典型 性 能 衡量 指标 是 
均 方 根 误差 (RMSE) ， 它 测量 的 是 预测 过 程 中 ， 预 测 错误 的 标准 偏差 
[2] 。 例 如 ，RMSE 等 于 50000 束 意味 着 ， 系 统 的 预测 值 中 约 68% 落 在 
50000 美 元 之 内 ， 约 95% 落 在 100000 美 元 之 内 BL.。 公 式 2-1 是 RMSE 的 数 
SE Re 


公式 2-1: 均 方 根 误 差 (RMSE) 


RMSE(X,h) 


xP J 


(Dee 
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-m 是 你 在 测量 RMSE 时 ， 所 使 用 的 数据 集中 实例 的 数量 。 
例如， 如 有 你 在 评 佑 RMSE 时 使 用 的 验证 集 里 包含 2000 个 区 域 ， 则 


m=2000 


X O 是 数据 集中 ， 第 i 个 实例 的 所 有 特征 值 的 向 量 (标签 特征 除 
外 ) ，y 是 标签 (也 就 是 我 们 期 待 该 实例 的 输出 值 )。 


-例如 ， 如 果 数 据 集 的 第 一 个 区 域 位 于 经 度 -118.29°*， 纬 度 33.91*?， 居 民 
数量 为 1416， 平 均 收 入 为 38372 美 元 ， 房 价 中 位 数 为 156400 美 元 (暂且 


忽略 其 他 特征 ) ， 那 么 : 
118. 29 
wl 33. 91 
1 416 
38 372 


y = 156 400 


闵 是 数据 集中 所 有 实例 的 所 有 特征 值 的 矩阵 (标记 特征 除外 ) 。 每 个 
实例 为 一 行 ， 也 就 是 说 ， 第 i 行 等 于 x 9 的 转 置 矩 阵 ， 记 作 (x ) 


T 。[4] 


例如 ， 网 刚 插 述 的 第 一 个 区 域 ， 和 矩阵 X 即 为 如 下 所 示 : 


(x) 


(x)! 
,| [1829 33.91 140 38 372 
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i 、 人 -( A. 
Bx  ， 它 会 输出 一 个 预测 值 上 2 -NG ) (P 读 作 “y-hat") 。 
-例如 ， 如 果 系 统 预测 第 一 个 区 域 的 房价 中 位 数 为 158400 美 元 ， 则 了 
=h (x 4) ) =158400。 该 区 域 的 预测 误差 为 -y \ =2000。 


:RMSE (X, h) 是 使 用 假设 h 在 示例 上 测量 的 成 本 函数 。 


一 个 假设 。 当 给 定 系统 一 个 实例 的 特征 癌 


我 们 使 用 小 写 的 斜体 字体 表示 标量 值 (例如 m 和 y  ) 和 函数 名 〈 例 


th) ， 小 写 黑 体 字 表示 向 量 (例如 x Y ) ， 大 写 黑体 字 表 示 和 矩阵 
(例如 X) 

即便 RMSE 通 常 是 回归 任务 的 首选 性 能 衡量 指标 ， 但 在 某 些 情况 下 ， 其 
他 函数 可 能 会 更 适合 。 例 如 ， 当 有 很 多 离 群 区 域 时 ， 你 可 以 考虑 使 用 
平均 绝对 误差 〈 也 称 为 平均 绝对 偏差 ， 参 见 公式 2-2) 。 


公式 2-2: 平均 绝对 误差 


| m 
ne l l 
MAE(X, h) = 一 》 |h) - y” 
m a3 
均 方 根 误差 和 平均 绝对 误差 两 种 方法 都 是 测量 两 个 向 量 之 间 的 距离 : 
预测 向 量 和 目标 值 癌 量 。 距 离 或 者 范 数 的 测度 可 能 有 多 种 : 


计算 平方 和 的 根 (RMSE) 对 应 欧 几 里 得 范 数 ， 它 应 该 是 你 比较 熟悉 
的 距离 概念 。 也 称 之 为 £2 yag, WE (或 者 | 由 。 


.计算 绝对 值 的 总 和 (MAE) 对 应 《1 范 数 ， 记 作 ||，。 有 时 它 也 被 称 为 
曼哈顿 距离 ， 因 为 它 在 测量 一 个 城市 的 两 点 之 间 的 距离 时 ， 只 能 沿 着 
正 交 的 城市 街区 行走 。 

SESH, Bon CE By, 的 范 数 可 以 定义 为 

lvi = (volv H +v .to 仅仅 给 出 了 向 量 的 基数 ( 即 元 素 的 数 
E), Co 而 给 出 了 向 量 中 的 最 大 绝对 值 。 

: 范 数 指数 越 高 ， 则 越 关 注 大 的 价值 ， 忽 视 小 的 价值 。 这 就 是 为 什么 
RMSE 比 MAE 对 异常 值 更 敏感 。 但 是 当 异常 值 非常 稀少 (例如 钟 形 曲 
线 ) 时 ，RMSE 的 表现 优异 ， 通 常 作为 首选 。 


检查 假设 


最 后 ， 列 举 和 验证 到 目前 为 止 (由 你 或 者 其 他 人 ) 做 出 的 假设 ， 是 一 
个 非常 良好 的 习惯 ;这 可 以 在 初期 检查 出 严重 问题 。 例 如 ， 当 我 们 的 
机 万 学 习 系 统 输 出 区 域 价 格 给 下 游 系 统 时 ， 我 们 的 假设 是 价格 会 被 使 
用 。 但 是 ， 如 琳 下 游 系 统 实际 上 是 将 价格 转换 成 为 类 别 OGG, BE 
Or Pace ett) ， 转 而 使 用 这 些 类 别 ， 而 不 是 价格 本 身 呢 ? 在 这 
种 情形 下 ， 并 不 需要 完全 准确 地 预 估价 格 ， 你 的 系统 只 需要 得 出 正确 
RAS To WRIA, BAI SAA IA BO EA TSE 
务 而 不 是 回归 任务 。 你 肯定 不 会 愿意 在 回归 系统 上 努力 了 几 个 月 之 后 
才 发 现 这 点 。 


幸运 的 是 ， 跟 下 游 系统 的 团队 聊 过 之 后 ， 证 实 需要 的 确实 是 价格 而 不 
是 类 别 。 很 好 ! 一 切 就 绪 ， 绿 灯 已 经 亮 了 ， 现 在 可 以 开始 编程 了 | 


[11. 提 供给 机 絮 学 习 系 统 的 信息 通常 被 称 为 信号 ， 可 参考 香农 的 信息 理 
记 : 你 需要 的 是 高 信 品 比 。 


[1 标准 偏差 ， 通 常 标记 为 。 (希腊 字母 sigma) ， 是 方差 的 算术 平方 
根 ” 而 方差 是 离 均 平方 差 的 平均 数 。 


[3] 一 种 常见 的 特征 分 布 是 呈 钟 形态 的 分 布 ， 称 为 正 态 分 布 〈 也 叫 高 斯 
分 布 ) ，“68-95-99.7” 的 规则 是 指 : 大 约 68% 的 值 落 在 1 内 ，95% 落 在 
20, 99.7%% E30] ° 

[4]. 回 顾 一 下 ， 转 置 运算 符 会 将 列 向 量 转 成 行 向 量 (反之 亦 然 )。 
获取 数据 

现在 是 着 手动 工 的 时 候 了 。 不 要 犹 聊 ， 打 开 你 的 笔记 本 电脑 ， 先 过 一 
遍 Jupyter 笔 记 本 里 的 代码 示例 。 完 整 的 Jupyter 示 例 可 以 通过 获得 。 
创建 工作 区 


首先 ， 你 需要 安装 Python。 你 可 能 早已 经 装 好 了 ， 如 果 还 没有 ， 你 可 以 
4 _https://www.python.org/-[1]. EJK HY ° 


接 下 来 ， 你 需要 为 机 器 学 习 的 代码 和 数据 集 创建 一 个 工作 区 目录 。 打 
开 Terminal 输 入 以 下 命令 行 (在 $ 提 示 符 之 后 ) : 


$ export ML_PATH="$HOME/m1" # You can change the path if you prefer 


$ mkdir -p $ML_PATH 


此 外 ， 你 还 需要 一 些 Python 模块 : Jupyter ` Pandas ` NumPy ` 
Mtatplotlib 以 及 Scikit-Learn。 如 果 你 已 经 安装 好 了 所 有 这 些 模 块 ， 并 运 
行 了 Jupyter， 那 么 可 以 路 到 “下 载 数据 ”一 节 。 如 果 还 没有 完全 安装 所 有 
模块 (以 及 它们 的 依赖 ) ， 以 下 有 多 种 办 法 进行 安装 。 可 以 使 用 系统 
的 包 管 理 器 进行 安装 (例如 ，Ubunto 的 apt-get， 或 者 是 Mac OS 上 的 
MacPorts 和 Homebrew 等 ) ， 安 装 一 个 Scientific Python 的 分 支 ， 例 如 
Anaconda， 人 然后 使 用 其 包 管 理 右 ， 又 或 者 是 直接 使 用 Python 目 己 的 包 
管理 器 pip， 默 认 情 况 下 ， ( 自 2.7.9 版 本 之 后 ) Python 的 二 进 制 安装 
程序 里 应 该 都 包含 pip。 你 可 以 输入 以 下 命令 行 查看 是 否 安装 了 pip: 


$ pip3 --version 

pip 9.0.1 from [...]/lib/python3.5/site-packages (python 3.5) 
请 确保 安装 的 pip 版 本 是 最 新 的 ， 至 少 是 1.4 版 之 后 的 才能 文 持 二 进 制 模 
块 安装 (ak.awheels) 。 要 升级 pip 模 块 ， 请 输入 : |! 

$ pip3 install --upgrade pip 

Collecting pip 


[...] 


Successfully installed pip-9.0.1 


创建 一 个 隔离 环境 


如 果 你 希望 在 一 个 隔离 的 环境 里 工作 (强烈 推荐 ， 这 样 你 可 以 在 库 版 
本 不 冲突 的 情况 下 处 理 不 同 的 项 目 ) ， 可 以 通过 运行 以 下 pip 命 令 来 安 


ye. 
4€virtualenv: 


$ pip3 install --user --upgrade virtualenv 


Collecting virtualenv 


Successfully installed virtualenv 


输入 以 下 命令 创建 一 个 隔离 的 Python 环境 : 


$ cd $ML_PATH 

$ virtualenv env 

Using base prefix '[...]' 

New python executable in [...]/ml/env/bin/python3.5 
Also creating executable in [...]/ml/env/bin/python 


Installing setuptools, pip, wheel...done. 


现在 开始 ， 每 当 想 要 激活 这 个 环境 时 ， 只 需要 打开 终端 并 输入 : 


$ cd $ML_PATH 


$ source env/bin/activate 


当 这 个 环境 处 于 激活 状态 时 ， 你 使 用 pip 安 装 的 任何 软件 包 都 将 被 安装 
在 这 个 隔离 的 环境 中 ，Python 只 拥有 这 些 包 的 访问 权限 (如 果 你 还 希望 


Dalal Fz FE AEE a, MAE FA virtualenvil'--system-site-packages 
命令 选项 ) 。 更 多 详情 可 以 参考 virtualenv 的 文档 。 


现在 可 以 安装 必须 的 模块 及 其 依赖 项 了 ， 使 用 简单 的 pip 命 令 : 


$ pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn 
Collecting jupyter 
Downloading jupyter-1.0.0-py2.py3-none-any.whl 


Collecting matplotlib 


BRE Ee, WAU RASS A eR: 


$ python3 -c "import jupyter, matplotlib, numpy, pandas, scipy, sklearn" 


应 该 不 会 有 输出 或 错误 出 现 ， 现 在 你 可 以 输入 以 下 命令 来 局 动 
Jupyter: 
$ jupyter notebook 
[I 15:24 NotebookApp] Serving notebooks from local directory: [...]/ml 
[I 15:24 NotebookApp] © active kernels 
[I 15:24 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/ 
[I 15:24 NotebookApp] Use Control-C to stop this server and shut down all 


kernels (twice to skip confirmation). 


—SJupyterARA ae EE RAZA ita PIB AT, is Wig 78888 e PRAY LAFT 
FFM bias, 447A http://ocalhost:8888/ 访问 该 服务 器 (ARS as ao 
时 会 自动 运行 ) ， 可 以 看 到 一 个 空 的 工作 区 目录 (如 果 你 遵循 了 上 壕 
virtualenv 指 令 ， 这 时 仅 包含 env 目 录 ) 


选择 适当 的 Python 版 本 ， 创 建 一 个 Python 笔记 本 4. (W, 
图 2-3) 。 


这 里 包含 三 件 事 : 首先 ， 它 会 在 你 的 工作 区 中 创建 一 个 名 为 
Untitled.ipynb 的 新 笔记 本 文件 ， 然 后 ， 启 动 Jupyter Python 内 核 来 运行 这 
个 文件 ， 最 后 在 浏览 右 新 标签 里 打开 这 个 笔记 本 。 先 点 击 Untitled 将 这 
个 笔记 本 重 命名 为 “Housing” (文件 将 自动 被 重 命 名 为 

housing.ipynb) ° 
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图 2-3: 你 的 Jupyter 工 作 间 


一 个 笔记 本 内 包含 一 个 单元 格 列表 ， 每 个 单元 格 可 以 是 可 执行 代码 或 

格式 化 的 文本 。 现 在 ， 这 个 笔记 本 只 有 一 个 空 的 代码 单元 ， 标 记 

为 “In[1]: ”。 在 单元 格 输入 print ("Hello world! ") ， 然 后 单 击 执行 按 
H (参见 图 2-4) 或 是 按 组 合 键 “Shift+Enter”。 这 时 ， 当 前 单元 格 会 被 


送 到 这 个 笔记 本 的 Python 内 核 ， 运 行 并 返回 得 出 结 采 。 结 果 显 示 在 单元 
格 下 方 ， 同 时 因为 我 们 到 了 笔记 本 的 末尾 ， 因 此 还 会 自动 创建 一 个 新 
的 单元 格 。 更 多 的 基础 知识 可 以 从 Jupyter 的 帮助 来 单 *User Interface 
Tour” P T HA ° 


~ Jupyter Housing 4—| Logout 
File Edit View Insert Cell + Kernel Help | Python 3 O 
+ x © BR rv WLC Code + |E | Cellfoolbar || = 
) 3 

In [1]: print\ "Hello world!" 


Hello world! 


In [ ]: 


图 2-4: Python 笔记 本 的 Hello world 
下 载 数据 


在 一 般 环 境 下 ， 你 的 数据 存储 在 天 系 型 数据 库 里 ， 并 分 布 在 多 个 表 / 文 
档 /文件 中 。 访 问 前 ， 你 需要 先 获得 证 书 (credentials) 和 访问 权限 PL, 
并 熟悉 数据 库 模 式 。 不 过 在 这 个 项 目 中 ， 事 情 要 简单 得 多 : 你 只 需要 
下 载 一 个 压缩 文件 housing.tgz 即 可 ， 这 个 文件 已 经 包含 所 有 的 数据 一 一 
一 个 以 逗号 来 分 隔 值 的 CSV 文 档 housing.csv。 


你 可 以 选择 使 用 浏览 融 下 载 压 缩 包 ， 运 行 tar xzf housing.tgz 来 解压 缩 并 
提取 CSV 文 件 ， 但 更 好 的 选择 是 创建 一 个 简单 夯 数 来 实现 它 。 尤 其 是 

当 数 据 会 定期 发 生变 化 时 ， 这 个 函数 非常 有 用 ， 你 可 以 编写 一 个 小 肢 

本 ， 在 需要 获取 最 新 数据 时 ， 直 接 运 行 〈 或 者 也 可 以 设置 一 个 定期 目 

动 运行 的 计划 任务 。 如果 和 需要 在 多 台 机 器 上 安装 数据 集 ， 这 个 目 动 

获取 数据 的 函数 也 非常 好 用 。 


获取 数据 的 函数 如下: 


import os 


import tarfile 


from six.moves import urllib 


DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/" 


HOUSING PATH = "datasets/housing" 


HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz" 


def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH) : 


if not os.path.isdir(housing_path): 


os.makedirs(housing_path) 


tgz_path = os.path.join(housing_path, "housing.tgz") 


urllib.request.urlretrieve(housing_url, tgz_path) 


housing _tgz = tarfile.open(tgz_path) 


housing_tgz.extractall(path=housing_path) 


housing _tgz.close() 


现在 ， 每 当 你 调用 fetch_housing_data O ， 会 自动 在 工作 区 中 创建 一 个 
datasets/housing 目 孙 ， 然 后 下 载 housing.tgz 文 件 ， 并 将 housing.csv 解 压 
到 这 个 目录 。 


现在 我 们 来 使 用 Pandas 加 载 数 据 。 你 也 应 该 写 一 个 小 钞 数 来 加 载 数 据 : 


import pandas as pd 


def load_housing_data(housing_path=HOUSING_PATH) : 
csv_path = os.path.join(housing_path, "housing.csv") 


return pd.read_csv(csv_path) 


这 个 函数 会 返回 一 个 包含 所 有 数据 的 Pandas DataFrame 对 象 。 
快速 查看 数据 结构 


T ee nee O 方法 之 后 的 前 五 行 是 怎样 的 〈 见 
2-5) ° 


In [5]: | “housing = load_housing datal ) 
housing, head( ) 


图 2-5: 数据 集 前 五 行 
一 行 代表 一 个 区 ， 总 共有 10 个 属性 (在 图 2-5 中 可 以 看 到 前 6 个 ) 


longitude, latitude, housing median age, total rooms, total_bed 


rooms, population, households, median_income, median_house_value 
以 及 ocean_proximity ° 


通过 info O 方法 可 以 快速 获取 数据 集 的 简单 描述 ， 特 别 是 总 行 数 、 每 
个 属性 的 类 型 和 非 空 值 的 数量 ( 见 图 2-6) 。 


In [6]: 


<class 'pandas.core. frame. DataFrame'> 
RangeIndex: 20640 entries, 0 to 20639 
Data columns (total 10 columns): 


longitude 20640 non-null float64 
latitude 20640 non-null float64 
housing median age 20640 non-null float64 
total_rooms 20640 non-null float64 
total_bedrooms 20433 non-null float64 
population 20640 non-null float64 
households 20640 non-null float64 
median income 20640 non-null float64 
median house value 20640 non-null float64 
ocean_proximity 20640 non-null object 


dtypes: float64(9), object(1) 
memory usage: 1.6+ MB 


图 2-6: 住房 信息 


数据 集中 包含 20640 个 实例 ， 以 机 器 学 习 的 标准 来 看 ， 这 个 数字 非常 
小 ， 但 却 是 个 完美 的 开始 。 注 意 ，total_bed 这 个 属性 只 \ 有 20433 个 非 空 


f, ROLE 207 + Keats 文 个 特征 。 我 们 后 面 需 要 考虑 到 这 


所 有 属性 的 字段 都 是 数字 ， 除 了 ocean_proximity。 它 的 类 型 是 object， 
因此 它 可 以 是 任何 类 型 的 Python 对 象 ， 不 过 你 是 从 CSV 文 件 中 加 载 了 该 
数据 ， 所 以 它 必然 是 文本 属 性 。 通 过 查看 前 五 行 ， 你 可 能 会 注意 到 ， 
该 列 中 的 值 是 重复 的 ， 这 意味 着 它 有 可 能 是 一 个 分 类 属性 。 你 可 以 使 
i () 方法 查看 有 多 少 种 分 类 存在 ， 每 种 类 别 下 分 别 有 多 
DY“ |X SHV: 


>>> housing["ocean_proximity"].value_counts() 
<1H OCEAN 9136 
INLAND 6551 
NEAR OCEAN 2658 
NEAR BAY 2290 
ISLAND 5 


Name: ocean_proximity, dtype: int64 


再 来 看 看 其 他 区 域 ， 通 过 describe () 方法 可 以 显示 数值 属性 的 摘要 
( 见 图 2-7) 。 


In [8]: housing,describe() | 
Out[8]: ng | latitude housing median_age| total_rooms |total bedr 


count | 20640.000000 | 20640.000000 | 20640.000000 20640.000000 | 20433,000¢ 


merar 28.639486 2635.763081 (537.87055: 
2003532 [2.135952 |12585558 2181.815252 |421.38507C 
=a en 1.000000 1.000000 
GE 二 
ae joo [rr |e 
-11801000 7.710000 (aroo |3148000000 | a7 anon 
1430000 |4% 80000 [52000000 |39320000000|64450000 


图 2-7: 数值 属性 的 摘要 


count、mean、min 以 及 max 行 的 意思 很 清楚 。 需 要 注意 的 是 ， 这 里 的 空 


值 会 被 忽略 (因此 本 例 中 ， total. hedroomstflcount#:20433 19 Ack: 


20640) 。std 行 显示 的 是 标准 差 〈 用 来 测量 数值 的 离散 程度 ) 。259%、 
509% 和 759% 行 显示 相应 的 百 分 位 数 : 百 分 位 数 表 示 一 组 观测 值 中 给 定 百 
分 比 的 观测 值 都 低 于 该 值 。 例 如 ， 对 于 housing_median_age 的 值 ，259%6 
的 区 域 低 于 18，50% 的 区 域 低 于 29， 以 及 75% 的 区 域 低 于 37。 这 些 通 常 
被 称 为 ， 百 分 之 二 十 五 分 位 数 (或 者 第 一 四 分 位 数 ) 、 中 位 数 以 及 百 
分 之 七 十 五 分 位 数 (或 者 第 三 四 分 位 数 ) 。 

男 一 种 快速 了 解数 据 类 型 的 方法 是 绘制 每 个 数值 属性 的 直方 图 。 直 方 
图 用 来 显示 给 定 值 范围 ( 横 轴 ) 的 实例 数量 〈 纵 轴 ) 。 你 可 以 一 次 绘 
制 一 个 属性 ， 也 可 以 在 整个 数据 集 上 调用 hist O 方法 ， 绘 制 每 个 属性 
的 直方 图 ( 见 图 2-8) 。 比 如 我 们 可 以 看 到 ， 超 过 800 个 区 域 的 
median_house_value 大 约 在 50 万 美元 。 


ymatplotlib inline # only in a Jupyter notebook 
import matplotlib.pyplot as plt 


housing.hist(bins=50, figsize=(20,15)) 


plt.show() 
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图 2-8: 每 个 属性 的 直方 图 


` hist () 方法 依赖 于 Matplotlib ， 而 Matplotlib 又 依赖 于 用 户 指定 的 图 
形 后 端 才能 在 屏幕 上 完成 绘制 。 所 以 在 绘制 之 前 ， 你 需要 先 指定 
Matplotlib 使 用 哪个 后 台 。 最 简单 的 选择 是 使 用 Jupyter 的 神奇 命 

令 %matplotlib inline。 它 会 设置 Matplotlib 从 而 使 用 Jupyter 上 自己 的 后 端 ， 
随后 图 形 会 在 笔记 本 上 呈现 。 需 要 注意 的 是 ， 因 为 Jupyter 在 执行 每 个 
ee ree 所 以 在 Jupyter 笔 记 本 中 调用 show () 是 可 
选 的 。 


回 到 直方 图 ， 请 注意 以 下 几 点 : 


1. 首 先 ， 收 入 中 位 数 这 个 属性 看 起 来 不 像 是 用 美元 (USD) 在 衡量 。 经 
与 收集 数据 的 团队 核实 ， 你 得 知 数据 已 经 按 比例 缩小 ， 并 框 出 中 位 数 
的 上 限 为 15 (实际 为 15.0001) ， 下 限 为 0.5 (实际 为 0.4999) 。 在 机 器 
学 习 中 ， 使 用 经 过 预 处 理 的 属性 是 很 常见 的 事情 ， 倒 不 一 定 是 个 问 
题 ， 但 是 你 至 少 需要 了 解数 据 是 如 何 计算 的 。 


2. 房 龄 中 位 数 和 房价 中 位 数 也 被 设 定 了 上 限 。 而 后 关 正 是 你 的 目标 属性 
(标签 ) ， 这 可 是 个 大 问题 。 因 为 你 的 机 器 学 习 算 法 很 可 能 会 学 习 到 
价格 永远 不 会 超过 这 个 限制 。 所 以 你 需要 再 次 与 客户 (使 用 你 系统 的 
输出 的 团队 ) 进行 核实 ， 查 看 是 否 存在 问题 。 如 采 他 们 告诉 你 ， 他 们 
需要 精确 的 预测 值 ， 甚 至 可 以 超过 50 万 美元 ， 那 么 ， 通 常 你 有 两 个 选 


择 


a. 对 那些 标签 值 被 设置 了 上 限 的 地 区 ， 重 新 收集 标签 值 。 


b. 或 是 将 这 些 地 区 的 数据 从 训练 集中 移 除 (包括 从 测试 集中 移 除 ， 因 为 
如 果 预 测 值 超过 500000， 系 统 不 应 被 评估 为 不 良 ) 。 


3. 这 些 属性 值 被 缩放 的 程度 各 不 相同 。 这 点 将 在 本 章 后 文 探索 特征 的 缩 
放 时 ， 再 做 讨论 。 

4. 最 后 ， 许 多 直方 图 都 表现 出 重 尾 : 图 形 在 中 位 数 右 侧 的 延伸 比 左 侧 要 
远 得 多 。 这 可 能 会 导致 某 些 机 融 学 习 算法 难以 检测 模式 。 稍 后 我 们 会 
尝试 一 些 转 化 方法 ， 将 这 些 属 性 转化 为 更 偏 问 钟 形 的 分 布 。 


相信 现在 你 对 正在 处 理 的 数据 应 该 有 了 更 好 的 理解 。 


wre 在 进一步 查看 数据 之 前 ， 你 需要 先 创建 一 个 测试 集 ， 然 后 
即 可 将 其 放置 一 旁 ， 不 用 过 多 理会 。 


创建 测试 集 


在 这 个 阶段 主动 搁置 部 分 数据 听 起 来 可 能 有 点 奇怪 。 毕 竟 ， 你 才 只 是 
简单 浏览 了 一 下 数据 而 已 ， 在 决定 用 什么 算法 之 前 ， 当 然 还 需要 了 解 
更 多 的 知识 ， 对 吧 ? 没 铺 ， 但 十 大 脑 是 个 非常 神奇 的 模式 检测 系统 ， 

也 就 是 说 它 很 容易 过 度 匹 配 : 如 果 是 你 本 人 来 浏览 测试 集 数据 ， 你 很 
可 能 会 跌 入 某 个 看 似 有 趣 的 数据 模式 ， 进 而 选择 茶 个 特殊 的 机 夯 学 习 
模型 。 然 后 当 你 再 使 用 测试 集 对 谤 化 误 产 率 进 行 估算 时 ， 佑 计 结 末 将 
会 过 于 乐观 ， 该 系统 启动 后 的 表现 将 不 如 预期 那 般 优 秀 。 这 叫 作 数 据 


SLR ie (data snooping bias) ° 


理论 上 ， 创 建 测试 集 非常 简单 ， 只 需要 随机 选择 一 些 实例 ， 通 常 是 数 
据 集 的 20%， 然 后 将 它们 放 在 一 边 ; 


import numpy as np 


def split_train_test(data, test_ratio): 
shuffled_indices = np.random.permutation(len(data) ) 
test_set_size = int(len(data) * test_ratio) 
test_indices = shuffled_indices[:test_set_size] 
train_indices = shuffled_indices[test_set_size: ] 


return data.iloc[train_indices], data.iloc[test_indices] 


你 可 以 这 样 使 用 如 下 函数 : 


>>> train_set, test_set = split_train_test(housing, 0.2) 
>>> print(len(train_set), "train +", len(test_set), "test") 


16512 train + 4128 test 


是 的 ， 这 确实 能 行 ， 但 这 并 不 完美 : 如 果 你 再 运行 一 遍 ， 它 又 会 产生 
一 个 不 同 的 数据 集 ! 这 样 下 去 ， 你 (或 者 是 你 的 机 器 学 习 算 法 ， 将 会 
看 到 整个 完整 的 数据 集 ， 而 这 正 是 创建 测试 集 时 需要 避免 的 。 


解决 方案 之 一 是 在 第 一 次 运行 程序 后 即 保存 测试 集 ， 随 后 的 运行 只 是 

加 载 它 而 已 。 男 一 种 方法 是 在 调用 np.random.permutation () 之 前 设置 
一 个 随机 数 生 成 器 的 种 子 (例如 ，np.random.seed (42) ) ZL, Mimi 
它 始 终生 成 相同 的 随机 索引 。 


但 是 ， 这 两 种 解决 方案 在 下 一 次 获取 更 新 的 数据 时 都 会 中 断 。 管 见 的 
解决 办 法 是 每 个 实例 都 使 用 一 个 标识 符 (identifier) 来 决定 是 否 进 入 测 
试 集 〈 假 定 每 个 实例 都 有 一 个 唯一 且 不 变 的 标识 符 ) 。 举 例 来 说 ， 你 
可 以 计算 每 个 实例 标识 符 的 hash 值 ， 只 取 hash 的 最 后 一 个 字条 ， 如 末 该 
值 小 于 等 于 51 ( 约 256 的 20%) ， 则 将 该 实例 放 入 测试 集 。 这 样 可 以 确 
保 测试 集 在 多 个 运行 里 都 是 一 致 的 ， 即 便 更 新 数据 集 也 仍然 一 致 。 新 
实例 的 20% 将 被 放 入 新 的 测试 集 ， 而 之 前 训练 集中 的 实例 也 不 会 被 放 入 
新 测试 集 。 实 现 方式 如 下 : 


import hashlib 


def test_set_check(identifier, test_ratio, hash): 


return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio 


def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5): 


ids = data[id_column] 
in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash)) 
return data.loc[~in_test_set], data.loc[in_test_set] 
ANA, housing jA RAER o mii SLA APR TT IE ce (EAT 
索引 作为 ID: 


housing_with_id = housing.reset_ index() # adds an ‘index column 


train_set, test set = split_train_test_by_id(housing_with_id, 0.2, "index") 


WARE AAT RS VEE ERIT, UR te BERR EC SRI AS FE IS DLT 
Ba, FFAAZMPRMET o WR BER, BRAM) LAS tte 
用 某 个 最 稳定 的 特征 来 创建 唯一 标识 符 。 例 如 ， 一 个 地 区 的 经 纬度 肯 
定 几 百 万 年 都 不 会 变 ， 所 以 你 可 以 将 它们 组 合成 如 下 的 ID: 18 


housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude" ] 


train_set, test set = split_train_test_by_id(housing_with_id, 0.2, "id") 


Scikit-Learn 提 供 了 一 些 函 数 ， 可 以 通过 多 种 方式 将 数据 集 分 成 多 个 子 
集 。 最 简单 的 函数 是 train_test_split， 它 与 前 面 定义 的 函数 
split_train_test 几 平 相同 ， 除 了 儿 个 额外 特征 。 自 先 ， 它 也 有 
random_state 参 数 ， 让 你 可 以 像 之 前 提 到 过 的 那样 设置 随机 生成 妖 种 

; 其 次 ， 你 可 以 把 行 数 相同 的 多 个 数据 集 一 次 性 发 送 给 它 ， 它 会 根 
据 相 同 的 索引 将 其 拆 分 (例如 ， 当 你 有 一 个 单独 的 DataFrame 用 于 标记 
上 时， 这 就 非常 有 用 ) : 


from sklearn.model_selection import train test split 


train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42) 


到 目前 为 止 ， 我 们 已 经 思考 过 了 纯 随 机 的 抽样 方法 。 如 果 你 的 数据 集 
足够 庞大 (特别 是 相 较 于 属性 的 数量 而 言 ) ， 这 种 方式 通常 不 错 ; 如 
果 不 是 ， 则 有 可 能 会 导致 明显 的 抽样 偏差 。 如 采 一 家 调查 公司 想 要 打 
电话 给 1000 个 人 来 调研 几 个 问题 ， 他 们 不 会 在 电话 敌 中 纯 随 机 挑 移 
1000 个 人 。 他 们 试图 确保 让 这 1000 人 能 够 代表 全 体 人 口 。 例 如 ， 美 国 
人 口 组 成 为 51.3% 的 女性 和 48.7% 的 男性 ， 所 以 ， 要 想 在 美国 进行 一 场 
有 效 的 调查 ， 应 该 试图 维持 这 一 比例 ， 即 513 名 女性 和 487 名 男性 。 这 
MEDEM: 将 人 口 划 分 为 均匀 的 子 集 ， 每 个 子 集 被 称 为 一 层 ， 然 
后 从 每 层 抽取 正确 的 实例 数量 ， 以 确保 测试 集合 代表 了 总 的 人 口 比 
例 。 如 果 使 用 纯 随 机 的 抽样 方法 ， 将 有 12% 的 可 能 得 到 采样 俩 和 斜 的 测试 
集 一 一 要 入 女 性 比例 不 到 49%， 要 么 女性 比例 超过 54%。 不 论 出 现 哪 种 
情况 都 会 导致 调查 结果 出 现 重大 偏差 。 


如 采 你 咨询 专家 ， 他 们 会 告诉 你 ， 要 预测 房价 平均 值 ， 收 入 中 位 数 是 
一 个 非常 重要 的 属性 。 于 是 你 希望 确保 在 收入 属性 上 ， 测 试 集 能 够 代 
表 整 个 数据 集中 各 种 不 同类 型 的 收入 。 由 于 收入 中 位 数 是 一 个 连续 的 
数值 属性 ， 所 以 你 得 先 创建 一 个 收入 类 别 的 属性 。 我 们 先 来 看 一 下 收 
入 中 位 数 的 直方 图 ( 见 图 2-9) : 


图 2-9: 收入 类 别 的 直方 图 


大 多 数 收入 中 位 数值 聚集 在 2~5 (万 美元 左右, 但 也 有 一 部 分 远 远 
超过 了 6 万 。 在 数据 集中 ， 每 一 层 都 要 有 足够 数量 的 实例 ， 这 一 点 至 天 
重要 ， 不 然 数 据 不 足 的 层 ， 其 重要 程度 很 有 可 能 会 被 错 估 。 也 就 是 
说 ， 你 不 应 该 将 层 数 分 得 太 多 ， 每 一 层 应 该 要 足够 大 才 行 。 下 面 这 上段 
代码 是 这 样 创建 收入 类 别 属性 的 : 将 收入 中 位 数 除 以 1.5 (限制 收入 类 
别 的 数量 ) ， 然 后 使 用 ceil 进 行 取 整 《得 到 离散 类 别 ) ， 最 后 将 所 有 大 
于 5 的 类 别 合并 为 类 别 5: 


housing["income_cat"] = np.ceil(housing["median_income"] / 1.5) 


housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True) 


现在 ， 你 可 以 根据 收入 类 别 进行 分 层 抽样 了 。 使 用 Scikit-Learn 的 
Stratified-Shuffle Split 类 : 


from sklearn.model_selection import StratifiedShuffleSplit 


split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42) 


for train_index, test_index in split.split(housing, housing["income_cat"]): 


strat_train_set = housing.loc[train_index] 


strat_test_set = housing.loc[test_index] 


BEI MET GIA 9 7, HOR BAA See 
入 类 别 的 比例 分 布 : 


>>> housing["income_cat"].value_counts() / len(housing) 

Name: income_cat, dtype: float64 
使 用 类 似 代码 你 还 可 以 测量 测试 集中 的 收入 类 别 比例 分 布 。 图 2-10 比 较 
了 在 三 种 不 同 的 数据 集 《完整 数据 集 、 分 层 抽样 的 测试 集 、 纯 随机 抽 
样 的 测试 集 ) 中 收入 类 别 的 比例 分 布 。 正 如 你 所 见 ， 分 层 抽样 的 测试 


集中 的 比例 分 布 与 完整 数据 集中 的 分 布 儿 乎 一 致 ， 而 纯 随 机 抽样 的 测 
试 集结 末 则 出 现 了 重大 偶 离 。 


overall Random Stratified | Rand. %error | Strat. %error 
100030825 0.040213 | 0.039738 10.973236  |-0.219137 


20|0318847 0.324370 | 0.318876 |1.732260 | 0.009032 
30|035058 0.358527 | 0.350618 |2.266446 10.010408 
40017608 0.167393 | 0.176399 | -5.056334 — (0.051717 


5.0 | 0.114438 | 0.109496 | 0.114369 | -4.318374 | -0.060464 


图 2-10， 分 层 抽样 与 纯 随机 抽样 的 抽样 偏差 比较 
现在 你 可 以 删除 income_cat 属 性 ， 将 数据 恢复 原样 了 ; 


for set in (strat_ train set, strat_test_set): 
set.drop(["income_cat"], axis=1, inplace=True) 

我 们 花 了 相当 长 的 时 间 在 测试 集 的 生成 上 ， 理 由 很 充分 ， 这 是 机 器 学 
习 项 目 中 经 党 被 忽视 但 是 却 至 关 重 要 的 一 部 分 。 并 且 ， 随 讨论 到 交叉 
验证 时 ， 这 里 谈 到 的 许多 想法 也 对 其 大 有 神 益 。 现 在 ， 是 时 候 进 入 下 
一 个 阶段 (数据 探索 ) T 
[1] 推荐 最 新 版 Python 3，Python2.7+ 也 可 以 正常 工作 ,但 是 已 经 被 弃 
用 o 


[2] .我 们 使 用 的 是 Linuxz 和 Mac OS 系统 的 bash shell 来 说 明 pip 的 安装 步 
又 。 你 可 能 需要 在 上 自己 的 系统 上 对 命令 作出 相应 的 调整 。Windows 系 统 
上 我 们 推荐 安装 Anaconda ° 


[3]. 你 可 能 需要 管理 员 权限 才能 运行 该 命令 ， 如 果 是 这 样 ， 请 尝试 使 用 
sudo 前 级 运行 。 


[4] Jupyter 可 以 处 理 多 个 版 本 的 Python， 甚 至 可 以 处 理 许多 其 他 语言 ， 
例如 R 和 Octave。 


[5] 你 可 能 还 需要 检查 一 下 法 律 约束 ， 例 如 有 些 专用 字段 不 能 被 复制 到 
不 安全 的 数据 库 。 


[6] 在 真正 的 项 目 中 ， 你 需要 将 这 段 代 人 码 保 存在 Python 文件 中 ， 但 现在 
你 可 以 仅仅 将 其 写 入 Jupyter 笔 记 本 。 


[2]. 经 党 可 以 看 到 人 们 将 随机 种 子 设置 为 42， 这 个 数字 本 喘 没 有 特殊 的 
属性 ， 只 是 “关于 生命 、 宇 宙 和 一 切 的 终极 问题 的 答案 * 而 已 〈 译 者 
注 : 来 目 《 银 河 系 搭 车 客 指南 》) 。 


[8] 位 置信 息 实 际 上 是 相 当 粗 粒度 的 ， 许 多 区 域 可 能 会 拥有 完全 相同 的 
ID， 结 果 束 是 它们 会 被 纳入 同一 个 集合 (测试 集 或 者 训练 集 ) 。 而 这 
有 可 能 会 导致 一 些 抽样 仿 差 。 


从 数据 探 系 和 可 视 化 中 获得 洞 见 


到 现在 为 止 ， 我 们 还 只 是 在 快速 浏览 数据 ， 从 而 对 手 尖 上 正在 处 理 的 
数据 类 型 形成 一 个 大 致 的 了 解 。 本 阶段 的 目标 是 再 深入 一 点 点 。 


下 和 完 ， 把 测试 集 放 在 一 边 ， 你 能 探索 的 只 有 训练 集 。 此 外 ， 如 末 训 | 练 
集 非 肖 上 庞大 ， 你 可 以 抽样 一 个 探索 集 ， 这 样 后 面 的 操作 更 们 单 快捷 一 
些 。 不 过 我 们 这 个 案例 的 数据 集 非常 小 ， 完 全 可 以 直接 在 整个 训练 集 
二 操作 o 让 我 们 先 创 建 一 个 副本 ， 这 样 可 以 随便 答 试 而 不 损害 训练 


housing = strat_train_set.copy() 


将 地 理 数据 可 视 化 


由 于 存在 地 理 位 置信 息 (经 度 和 纬度 ) ， 因 此 建立 一 个 各 区 域 的 分 布 
图 以 便于 数据 可 视 化 是 一 个 很 好 的 想法 ( 见 图 2-11) : 


housing.plot(kind="scatter", x="longitude", y="latitude") 
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图 2-11: 数据 的 地 理 分 布 图 


没 错 ， 这 除了 看 起 来 跟 加 利 福 尼 亚 州 一 样 以 外 ， 很 难 再 看 出 任何 其 他 
eee 可 以 更 清楚 地 看 出 高 密度 数据 点 的 位 
YLAI2-12) ° 


housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 
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图 2-12: 突出 高 密度 区 域 的 可 视 化 


现在 好 多 了 : 可 以 清楚 地 看 到 高 密度 地 区 ， 也 就 是 湾 区 、 洛 杉 矶 和 和 圣 
地 亚 哥 附 近 ， 同 时 在 中 央 山 谷 有 一 条 相当 高 密度 的 长 线 ， 特 别 是 陕 死 
拉 门 托 和 弗 雷 期 诡 附 近 。 


一 般 来 说 ， 我 们 的 大 脑 非常 善于 从 图 片 中 发 现 模式 ， 但 是 你 需要 玩 园 
可 视 化 参数 才能 让 这 些 模式 凸显 出 来 。 


现在 ， 再 来 看 看 房价 ( 见 图 2-13) 。 每 个 圆 的 半径 大 小 代表 了 每 个 地 区 
的 人 口 数量 (选项 s) ， 颜 色 代表 价格 (选项 c) 。 我 们 使 用 一 个 名 叫 jet 
的 预定 义 颜色 表 (选项 cmap) 来 进行 可 视 化 ， 颜 色 范围 从 蓝 〈( 低 ) 到 
红 (高 ) : 由 


housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, 


s=housing["population"]/100, label="population", 


c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, 


plt.legend() 
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图 2-13: 加 利 福 尼 亚 州 房屋 价格 


这 张 图 片 告诉 你 房屋 价格 与 地 理 位 置 〈 例 如 靠 海 ) 和 人 口 密度 息 妃 相 
天 ， 这 所 你 可 能 早已 知 明 。 一 个 通 稼 很 有 用 的 方法 是 ， 使 用 案 类 算法 
来 检测 主 群体 ， 然 后 再 为 各 个 聚 类 中 心 添加 一 个 新 的 衡量 邻近 距离 的 
特征 。 海 洋 邻 近 度 可 能 就 是 一 个 很 有 用 的 属性 ， 不 过 在 北 加 州 ， 沿 海 
地 区 的 房价 并 不 是 太 高 ， 所 以 这 个 简单 的 规则 也 不 是 万 能 的 。 


FTAA RTE 


由 于 数据 集 不 大 ， 你 可 以 使 用 corr O 方法 轻松 计算 出 每 对 属性 之 间 的 
标准 相关 系数 〈 也 称 为 皮尔 逊 相关 系数 ) : 


corr_matrix = housing.corr() 


现在 看 看 每 个 属性 与 房屋 中 位 数 的 相关 性 分 别 是 多 少 : 


>>> corr_matrix["median_house_value"].sort_values(ascending=False) 


median_house_value 1.000000 
median_income 0.687170 
total_rooms 0.135231 


housing_median_age 0.114220 


households 0.064702 
total_bedrooms 0.047865 
population -0.026699 


longitude -0.047279 


latitude -0.142826 


Name: median_house_value, dtype: float64 


相关 系数 的 范围 从 -1 变化 到 1。 越 接近 1， 表 示 有 越 强 的 正 相 关 ; 比如 ， 
当 收 入 中 位 数 上 升 时 ， 房 价 中 位 数 也 趋 于 上 升 。 当 系数 接近 于 -1， 则 表 
示 有 强烈 的 负 相 关 ; 注意 看 纬度 和 房价 中 位 数 之 间 呈 现 出 轻微 的 负 相 
K 〈 也 就 是 说 ， 越 往 北 走 ， 房 价 倾向 于 下 降 ) 。 最 后 ， 系 数 靠近 0 则 说 
2 ee eee 
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外 相关 系数 仅 测 量 线 亿 相关 性 (“如 果 x 上 升 ， 则 y 上 升 /下 降 ”) 。 所 
以 它 有 可 能 彻 故 遗漏 非 线性 相关 性 〈 例 如 “如 采 x 接 近 于 堆 ， 则 y 会 上 

Wr”) 。 注 意 上 图 最 下 面 一 排 的 图 像 ， 它 们 的 相关 性 系数 都 症 ， 但 走 
显然 我 们 可 以 看 出 横 轴 和 纵 轴 之 间 的 关系 并 不 是 彼此 完全 独立 的 : 这 
是非 线性 关系 的 例子 。 此 外 ， 图 中 第 二 行 显 示 了 相关 性 为 1 或 -1 时 的 例 
子 ， 和 需要 注意 的 是 ， 这 个 相关 性 跟 斜 率 完全 无 关 。 这 就 好 比 是 说 ， 你 
本 人 用 英寸 来 计量 的 身高 与 你 用 英尺 其 至 是 纳米 来 计量 的 身高 之 间 的 
相关 系数 等 于 1 。 


还 有 一 种 方法 可 以 检测 属性 之 间 的 相关 性 ， 就 是 使 用 Pandas 的 
scatter_matrix 芳 数 ， 它 会 绘制 出 每 个 数值 属性 相对 于 其 他 数值 属性 的 相 
天 性 。 现 在 我 们 有 个 数值 属性 ， 可 以 得 到 112= 121 个 图 形 ， 篇 幅 原 因 
无 法 完全 展示 ， 这 里 我 们 仅 关 注 那 些 与 房价 中 位 数 属 性 最 相关 的 ， 可 
算 作 是 最 有 潜力 的 属性 〈 见 图 2-15) ° 


from pandas.tools.plotting import scatter_matrix 


attributes = ["median_house_value", "median_income", "total_rooms", 
"housing _median_age" ] 


scatter_matrix(housing[attributes], figsize=(12, 8)) 
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图 2-15: DERE 


如 果 Pandas 将 每 个 变量 都 与 自身 相对 ， 那 么 主 对 角 线 (从 左上 到 右 下 ) 
将 全 都 是 直线 ， 这 样 毫 无 意义 ， 所 以 取而代之 的 方法 是 ，Pandas 在 这 几 


个 图 中 显示 了 每 个 属性 的 直方 图 (还 有 其 他 选项 可 选 ， 详 情 请 
Pandas 文 档 ) 。 

最 有 潜力 能 够 预测 房价 中 位 数 的 属性 是 收入 中 位 数 ， 所 以 我 们 放大 来 
看 看 其 相关 性 的 散 点 图 ( 见 图 2-16) : 


党 


考 


housing.plot(kind="scatter", x="median_income", y="median_house_value", 


alpha=0.1) 


median house value 


median income 


图 2-16: 收入 中 位 数 和 房价 中 位 数 


图 2-16 说 明了 几 个 问题 。 首 和 完 ， 二 者 相关 性 确实 很 强 ， 你 可 以 清楚 地 看 
到 上 升 的 趋势 ， 并 且 点 也 不 是 太 分 散 。 其 次 ， 前 面 我 们 提 到 过 50 万 美 
元 的 价格 上 限 在 图 中 是 一 条 清晰 的 水 平 线 ， 不 过 除 此 以 外 ， 这 张 图 还 


显示 出 几 条 不 那么 明显 的 直线 : 45 万 美元 附近 有 一 条 水 平 线 ，35 万 美 
元 附近 也 有 一 条 ，28 万 美元 附近 似乎 隐约 也 有 一 条 ， 表 往 下 可 能 还 有 
一 些 。 为 了 避免 你 的 算法 学 习 之 后 重 现 这 些 怪异 数据 ， 你 可 能 会 壬 试 
删除 这 些 相 应 地 区 。 


试验 不 同属 性 的 组 合 


通过 前 面 的 章节 ， 项 望 让 你 了 解 到 了 一 些 探 索 数 据 并 从 中 获得 洞察 的 
方法 。 在 准备 开始 给 机 天 学 习 的 算法 输入 数据 之 前 ， 你 可 能 识别 出 了 
一 些 异 党 数据， 需要 提前 清理 卸 ;， 同时 ， 说 不 定 你 还 发 现 了 不 同属 性 
之 间 的 茶 些 有 趣 联系 ， 特 别 是 跟 目 标 属性 相关 的 联系 ;再 有 ， 你 还 可 
能 注意 到 有 某 些 属性 的 分 布 显示 出 了 明显 的 “ 重 尾 分布， 于 是 你 还 需要 
对 它们 进行 转换 处 理 (例如 ， 计 算 其 对 数 ) 。 当 然 了 ， 每 个 项 目的 历 
程 都 不 一 样 ， 但 是 大 致 思路 都 相似 。 


在 准备 给 机 硕 学 习 算法 输入 数据 之 前 ， 你 要 做 的 最 后 一 件 事 应 该 是 和 
试 各 种 属性 的 组 合 。 比 如 ， 如 有 果 你 不 知道 一 个 地 区 有 多 少 个 家 寿 ， 那 
么 知道 一 个 地 区 的 “房间 总 数 ?也 没什么 用 。 你 真正 想 要 知道 的 是 一 个 
家 庭 的 房间 数量 。 同 样 地 ， 单 看 “卧室 总 数 " 这 个 属性 本 身 ， 也 没什么 
意义 ， 你 可 能 是 想 拿 它 和 "“ 房 间 总 数 ?来 对 比 ， 或 者 拿 来 同 “ 每 个 家 庭 的 
人 口 数 " 这 个 属性 结合 也 似乎 挺 有 意思 。 我 们 来 试 着 创建 这 些 新 属性 : 


housing["rooms_per_household"] = housing["total_rooms"]/housing["households"] 
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"] 


housing["population_per_household" ]=housing["population"]/housing["households" } 


然后 再 来 看 看 关联 窍 阵 : 


>>> corr_matrix = housing.corr() 
>>> corr_matrix["median_house_value"].sort_values(ascending=False) 


median_house_value 1.000000 


median_income 0.687170 


rooms_per_household 0.199343 
total_rooms 0.135231 
housing_median_age 0.114220 
households 0.064702 
total_bedrooms 0.047865 


population_per_household -0.021984 


population -0.026699 
longitude -0.047279 
latitude -0.142826 
bedrooms_per_room -0.260070 


Name: median_house_value, dtype: float64 


怎么 样 ? 还 不 错 吧 ! 新 的 属性 bedrooms_per_room 较 之 “房间 总 数 ” 或 
是 “ 世 室 总 数 ” 与 房价 中 位 数 的 相关 性 都 要 高 得 多 。 显 然 甲 室 / 房 间 比 例 
更 低 的 房屋 ， 往 往 价 格 更 贯 。 同 样 “ 每 个 家 庭 的 房间 数量 ”也 比 “ 房 间 总 
数 ” 更 具 信 息 量 一 一 房屋 越 大 ， 价 格 越 贵 。 


这 一 轮 的 探索 不 一 定 要 多 么 彻底， 关键 是 迈 开 第 一 步 ， 快 速 取得 更 深 
刻 的 理解 ， 这 将 有 助 于 你 获得 非常 棒 的 第 一 个 原型 。 这 也 和 是 个 不 断 迭 
代 的 过 程 : 一 旦 你 的 原型 产生 并 且 开始 运行 ， 你 可 以 分 析 它 的 输出 以 
洞悉 更 多 的 见解 ， 然 后 再 次 回 到 这 个 探索 的 步 又 。 


[1 如 果 你 看 到 的 是 灰 度 图 像 ， 请 拿 出 一 根 红 笔 ， 从 海湾 地 区 的 海岸 线 
一 直 画 到 圣地 亚 哥 (可 能 正如 你 所 料 ) 。 还 可 以 在 陕 克 拉 门 托 附 近 画 


出 一 块 黄色 区 域 。 
机 器 学 习 算 法 的 数据 准备 


现在 ,终于 是 时 候 给 你 的 机 右 学 习 算 法 准备 数据 了 。 这 里 你 应 该 编写 
函数 来 执行 ， 而 不 是 手动 操作 ， 原 因 如 下 : 


上 轻松 重 现 这 些 转 换 (例如 ， 获 得 更 新 的 数据 库 


以 逐渐 建立 起 一 个 转换 函数 的 函数 库 ， 在 以 后 的 项 目 中 可 以 重 


(live system) 中 使 用 这 些 函 数 来 转换 新 数据 ， 再 喂 
给 算法 。 

-你 可 以 轻松 尝试 多 种 转换 方式 ， 查 看 哪 种 转换 的 组 合 效 果 最 住 。 
但 是 现在 ， 让 我 们 先 回 到 一 个 干净 的 数据 集 (再 次 复制 

strat_train_set) ， 然 后 将 预测 器 和 标签 分 开 ， 因 为 这 里 我 们 不 一 定 对 它 
们 使 用 相同 的 转换 方式 (需要 注意 drop () 会 创建 一 个 数据 副本 ， 但 是 


“影响 strat_train_ set) : 


housing = strat_train_set.drop("median_house_value", axis=1) 


housing_labels = strat_train_set["median_house_value"].copy() 


数据 清理 

大 部 分 的 机 器 学 习 算 法 无 法 在 缺失 的 特征 上 工作 ， 所 以 我 们 要 创建 一 
些 函 数 来 辅助 它 。 前 面 我 们 已 经 注意 到 total_bedrooms 属 性 有 部 分 值 缺 
失 ， 所 以 我 们 要 解决 它 。 有 以 下 三 种 选择 : 

:放弃 这 些 相 应 的 地 区 

:放弃 这 个 属性 


.将 缺失 的 值 设置 为 某 个 值 (0、 平 均 数 或 者 中 位 数 等 都 可 以 ) 


通过 DataFrame 的 dropna () 、drop () 和 fillna () 方法 ， 可 以 轻松 完 
成 这 些 操 作 : 


housing.dropna(subset=["total_bedrooms"] ) # option 1 

housing.drop("total_bedrooms", axis=1) # option 2 

median = housing["total_bedrooms"] .median( ) 

housing["total_bedrooms"] .fillna(median) # option 3 
如 果 你 选择 方法 3， 你 需要 计算 出 训练 集 的 中 位 数值 ， 然 后 用 它 填 充 训 
练 集 中 的 缺失 值 ， 但 也 别 筷 了 保存 这 个 计算 出 来 的 中 位 数值 ， 因 为 后 
面 可 能 需要 用 到 。 比 如 重新 评估 系统 时 ， 你 需要 更 换 测试 集中 的 缺失 
E; 或 者 在 系统 上 线 时 ， 需 要 使 用 新 数据 替代 缺失 值 。 
Scikit-Learn 提 供 了 一 个 非常 容易 上 手 的 教程 来 处 理 缺 失 值 : imputer 。 


使 用 方法 如 下 ， 首 和 完 ， 你 需要 创建 一 个 imputer 实 例 ， 指 定 你 要 用 属性 
的 中 位 数值 奉 换 该 属性 的 缺失 值 : 


from sklearn.preprocessing import Imputer 


imputer = Imputer(strategy="median") 


由 于 中 位 数值 只 能 在 数值 属性 上 计算 ， 所 以 我 们 需要 创建 一 个 没有 文 
本 属性 的 数据 副本 ocean_proximity: 


housing_num = housing.drop("ocean_proximity", axis=1) 


使 用 fit O 方法 将 imputer 实 例 适 配 到 训练 集 : 


imputer .fit(housing_num) 


这 里 imputer 仅 仅 只 是 计算 了 每 个 属性 的 中 位 数值 ， 并 将 结果 存储 在 其 
实例 变量 statistics_ 中。 虽然 只 有 total _bedrooms 这 个 属性 存在 缺失 值 ， 
但 是 我 们 无 法 确认 系统 启动 之 后 新 数据 中 是 否 一 定 不 存在 任何 缺失 
值 ， 所 以 稳妥 起 见 ， 还 是 将 imputer 应 用 于 所 有 的 数值 属性 : 


>>> imputer.statistics_ 
array([ -118.51 , 34.26, 29. , 2119. , 433. , 1164. , 408. , 3.5414]) 
>>> housing_num.median().values 


array([ -118.51 , 34.26 , 29. , 2119. , 433. , 1164. , 408. , 3.5414]) 
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完成 训练 集 转换 ; 


X = imputer.transform(housing_num) 


结果 是 一 个 包含 转换 后 特征 的 Numpy 数 组 。 如 果 你 想 要 将 它 放 回 Pandas 
DataFrame， 也 很 简单 : 


housing_tr = pd.DataFrame(X, columns=housing_num.columns) 


Scikit-Learn 的 设计 


Scikit-Learn 和 的 API 设 计 得 非常 好 。 其 主要 的 设计 原则 是 : 出 


一致 性 。 所 有 对 象 共享 一 个 简单 一 致 的 界面 : 


-估算 器 。 能 够 根据 数据 集 对 某 些 参数 进行 估算 的 任意 对 象 都 可 以 被 称 
为 估算 器 例如，imputer 就 是 一 个 估算 器 ) 。 估 算 由 fit O 方法 执 
行 ， 它 只 需要 一 个 数据 集 作为 参数 (或 者 两 个 一 一 对 于 监督 式 学 习 算 
法 ， 第 二 个 数据 集 包 含 标签 ) 。 引 导 估 算 过 程 的 任何 其 他 参数 都 算 作 
是 超 参 数 (例如 ，imputer’s strategy) ， 它 必须 被 设置 为 一 个 实例 变量 
(一 般 是 构造 函数 参数 ) 


-转换 器 。 有 些 估 算 器 (例如 imputer) 也 可 以 转换 数据 集 ， 这 些 被 称 头 

转换 器 。 同 样 ，API 也 非常 简单 : 由 transform O 方法 和 作为 参数 的 待 
转换 数据 集 一 起 执行 转换 ， 返 回 的 结果 就 是 转换 后 的 数据 集 。 这 种 转 

换 的 过 程 通常 依赖 于 学 习 的 参数 ， 比 如 本 例 中 的 imputer。 所 有 的 转换 

器 都 可 以 使 用 一 个 很 方便 的 方法 ， 即 fit_ transform O ， 相 当 于 先 调用 
fit O 然后 再 调用 transform () (但 是 fit_transform () 有 时 是 被 优化 

过 的 ， 所 以 运行 得 要 更 快 一 些 ) o 


预测 器 。 最 后 ， 还 有 些 估 算 独 能 够 基于 一 个 给 定 的 数据 集 进行 预测 ， 
这 被 称 为 预测 器 。 比 如 ， 上 一 章 的 linearRegression 束 是 一 个 预测 器 : 它 
基于 一 个 国家 的 人 均 GDP 预 测 该 国家 的 生活 满意 度 。 预 测 絮 的 predict 
O 方法 会 接受 一 个 新 实例 的 数据 集 ， 然 后 返回 一 个 包含 相应 预测 的 
数据 集 。 值 得 一 提 的 还 有 一 个 score () 方法 ， 可 以 用 来 衡量 给 定 测 试 
集 的 预测 质量 〈 以 及 在 监督 式 学 习 算法 里 对 应 的 标签 ) |! 

检查。 所 有 估算 如 的 超 参数 都 可 以 通过 公共 实例 变量 (例如 ， 
imputer.strategy) 直接 访问 ， 并 且 所 有 估算 器 的 学 习 参 数 也 可 以 通过 有 
下 划 线 后 缀 的 公共 实例 变量 来 访问 (例如 ，imputer.strategy_) ° 


.防止 类 扩散 。 数 据 集 被 表示 为 NumPy 数 组 或 是 SciPy 稀 疏 和 矩阵 ， 而 不 是 
目 定义 的 类 型 。 超 参数 只 是 普通 的 Python 字符 毕 或 者 数字 。 


-构成 。 现 有 的 构件 尽 最 大 可 能 重用 。 例 如 ， 任 意 序 列 的 转换 器 最 后 加 
一 个 预测 右 就 可 以 轻松 创建 一 个 流水 线 。 


合理 的 稚 认 值 。Scikit-Leam 为 大 多 数 参 数据 供 了 合理 的 称 认 值 ， 从 而 
可 以 快速 搭建 起 一 个 基本 的 工作 系统 。 


处 理 文 本 和 分 类 属性 


之 前 我 们 排除 了 分 类 属性 ocean_proximity， 因 为 它 是 一 个 文本 属性 ， 我 
们 无 法 计算 它 的 中 位 数值 。 大 部 分 的 机 器 学 习 算 法 都 更 易于 跟 数 字 打 
交道， 所 以 我 们 移 将 这 些 文本 标签 转化 为 数字 。 


Scikitr-Learn 为 这 类 任务 提供 了 一 个 转换 右 LabelEncoder: 


>>> from sklearn.preprocessing import LabelEncoder 

>>> encoder = LabelEncoder() 

>>> housing_cat = housing["ocean_proximity"] 

>>> housing_cat_encoded = encoder.fit_transform(housing_cat) 

>>> housing_cat_encoded 

array([1, 1, 4, ..., 1, ©, 3]) 
现在 好 了 : 我 们 可 以 将 这 套数 值 数据 应 用 于 任意 机 器 学 习 算法 。 你 可 
以 使 用 classes_ 属性 来 查看 这 个 编码 器 已 学 习 的 映射 (“<1H OCEAN” 对 
应 为 0，“INLAND” 对 应 为 1， 等 等 ) : 

>>> print(encoder.classes_) 

['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN ] 
这 种 代表 方式 产生 的 一 个 问题 是 ， 机 器 学 习 算 法 会 以 为 两 个 相近 的 数 
字 比 两 个 离 得 较 远 的 数字 更 为 相似 一 些 。 显 然 ， 真 实情 况 并 非 如 此 

(比如 ， 类 别 0 和 类 别 4 之 间 就 比 类 别 0 和 类 别 1 之 间 的 相似 度 更 高 ) 。 
为 了 解决 这 个 问题 ， 常 见 的 解决 方案 是 给 每 个 类 别 创建 一 个 二 进 制 的 
属性 : 当 类 别 是 “<1H OCEAN” 时 ， 一 个 属性 为 1 (其 他 为 0 ， 当 类 别 


是 “INLAND” 时 ， 男 一 个 属性 为 1 《其 他 为 0) ， 以 此 类 推 。 这 就 是 独 热 
编码 ， 因 为 只 有 一 个 属性 为 1 ( 热 ) ， 其 他 均 为 0 ( 冷 ) 。 


Scikitr-Learn 提 供 了 一 个 OneHotEncoder 编 码 器 ， 可 以 将 整数 分 类 值 转换 
为 独 热身 量 。 我 们 用 它 来 将 类 别 编码 为 独 热身 量 。 值 得 注意 的 是 ， 
fit_transform () 需要 一 个 二 维 数 组 ， 但 是 housing_cat_encoded 是 一 个 


一 维 数 组 ， 所 以 我 们 需要 将 它 重 塑 ， 时 | 


>>> from sklearn.preprocessing import OneHotEncoder 


>>> encoder = OneHotEncoder() 


>>> housing cat_1hot = encoder.fit_ transform(housing cat_encoded.reshape(-1,1)) 


>>> housing_cat_1hot 


<16513x5 sparse matrix of type '<class 'numpy.float64'>' 


with 16513 stored elements in Compressed Sparse Row format> 


注意 到 这 里 的 输出 是 一 个 SciPy 稀 玖 矩阵 ， 而 不 是 一 个 NumPy 数 组 。 当 
你 有 成 和 上 万 种 类 别 的 分 类 属性 时 ， 这 个 函数 会 非常 有 用 。 因 为 当 独 
热 编 码 完 成 之 后 ， 我 们 会 得 到 一 个 几 千 列 的 矩阵 ， 并 且 全 是 0， 每 行 仅 
有 一 个 1。 占用 大 量 内 存 来 存储 0 是 一 件 非 常 浪费 的 事情 ， 因 此 稀疏 甜 
阵 选 择 仅 存储 非 零 元 素 的 位 置 。 而 你 依旧 可 以 像 使 用 一 个 普通 的 二 维 
数组 那样 来 使 用 它 ， 出- 当然 如 果 你 实在 想 把 它 转换 成 一 个 (密集 的 ) 
NumPy 数 组 ， 只 需要 调用 toarray () 方法 即 可 : 


>>> housing_cat_ihot.toarray() 


array([[ 0., 1., ©., 0., 0.], 


使 用 LabelBinarizer 类 可 以 一 次 性 完成 两 个 转换 (从 文本 类 别 转化 为 整 
数 类 别 ， 再 从 整数 类 别 转换 为 独 热身 量 ) : 

>>> from sklearn.preprocessing import LabelBinarizer 

>>> encoder = LabelBinarizer() 

>>> housing_cat_ihot = encoder.fit_transform(housing_cat) 

>>> housing_cat_1hot 

array([[0, 1, 0, 0, 0], 

[0, 1, 0, ©, 0], 


[0, ©, ©, ©, 1], 


[0, 1, 0, 0, 0], 
[1, ©, 0, 0, 0], 
[e, ©, ©, 1, 0]]) 
注意 ，j SI SUB EI E ERRIN Dy 。 通过 发 送 
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虽然 Scikit-Learn 已 经 提供 了 许多 有 用 的 转换 器 ， 但 是 你 仍然 需要 为 一 
些 诸如 目 定 义 清理 操 作 或 是 组 合 特定 属性 等 任务 编写 自己 的 转换 器 。 
你 当然 希望 让 自己 的 转换 器 与 Scikit-Learn 自 身 的 功能 (比如 流水 线 ) 
无 颖 衔接 ， 而 由 于 Scikitr-Learn 依 赖 于 鸭子 类 型 (duck typing) 的 编译 ， 
而 不 是 继承 ， 所 以 你 所 需要 的 只 是 创建 一 个 类 ， 然 后 应 用 以 下 三 个 方 
法 : fit O (返回 自身 ) 、transform () 、fit transform () 。 如 果 添 
加 TransformerMixin 作 为 基 类 ， 束 可 以 直接 得 到 最 后 一 个 方法 。 同 时 ， 
如 果 添 加 BaseEstimator 作 为 基 类 〈 并 在 构造 画 数 中 避免 sargs 和 
**kargs) ， 你 还 能 额外 获得 两 个 非常 有 用 的 上 自动 调整 超 参数 的 方法 

(get_params () 和 set_params () ) 。 例 如 ， 我 们 前 面 讨论 过 的 组 合 
属性 ， 这 里 有 个 人 简单 的 转换 絮 类 ， 用 来 添加 组 合 后 的 属性 : 


from sklearn.base import BaseEstimator, TransformerMixin 


rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6 


class CombinedAttributesAdder(BaseEstimator, TransformerMixin) : 


def _ init__(self, add_bedrooms_per_room = True): # no *args or **kargs 


self.add_bedrooms_per_room = add_bedrooms_per_room 


def fit(self, X, y=None): 


return self # nothing else to do 


def transform(self, X, y=None): 


rooms_per_household = X[:, rooms_ix] / X[:, household_ix] 


population_per_household = X[:, population_ix] / X[:, household_ix] 


if self.add_bedrooms_per_room: 


bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix] 
return np.c_[X, rooms_per_household, population_per_household, 
bedrooms_per_room] 
else: 
return np.c_[X, rooms_per_household, population_per_household] 
attr_adder = CombinedAttributesAdder (add_bedrooms_per_room=False) 


housing_extra_attribs = attr_adder.transform(housing. values) 


在 本 例 中 ， 转 换 器 有 一 个 超 参 数 add_bedrooms_per_room 默 认 设置 为 
True (提供 合理 的 默认 值 通 常 是 很 有 帮助 的 ) 。 这 个 超 参 数 可 以 让 你 轻 
松 知晓 添加 这 个 属性 是 否 有 助 于 机 妖 学 习 的 算法 。 更 广泛 地 说 ， 如 果 
你 对 数据 准备 的 步骤 没有 充分 的 信心 ， 束 可 以 添加 这 个 超 参 数 来 进行 
把 关 。 这 些 数 据 准备 步骤 的 执行 越 目 动 化 ， 你 目 动 尝试 的 组 合 也 吏 越 
| 


特征 缩放 


最 重要 也 最 需要 应 用 到 数据 上 的 转换 器 ， 就 是 特征 缩放 。 如 果 输 入 的 
数值 属性 具有 非常 大 的 比例 差异 ， 往 往 导 致 机 器 学 习 算 法 的 性 能 表现 
不 佳 ， 当 然 也 有 极 少 数 特例 。 案 例 中 的 房屋 数据 就 是 这 样 : 房间 总 数 
的 范围 从 6 到 39320， 而 收入 中 位 数 的 范围 是 0 到 15。 注 意 ， 目 标 值 通 党 
不 需要 缩放 。 


同比 例 缩放 所 有 属性 ， 和 常用 的 两 种 方法 是 ， 最 小 -最 大 缩放 和 标准 化 。 
最 小 -最 大 缩放 〈 又 叫 作 归 一 化 ) 很 答 单 : 将 值 重 新 缩放 使 其 最 终 范 转 


归于 0 到 1 之 间 。 实 现 方法 是 将 值 减 去 最 小 值 并 除 以 最 大 值 和 最 小 值 的 
72 o° WUE, Scikit-Leam#ett T — 4 AMinMaxScalert#@fheas ° WIR 


出 于 某 种 原因 ， 你 希望 范围 不 是 0 一 1， 你 可 以 通过 调整 超 参 数 
feature_range 进 行 更 改 。 


标准 化 则 完全 不 一 样 : 首先 减 去 平均 值 (所 以 标准 化 值 的 均值 总 是 

=) ， 然 后 除 以 方差 ， 从 而 使 得 结果 的 分 布 具备 单位 方差 。 不 同 于 最 
小 -最 大 缩放 的 是 ， 标 准 化 不 将 值 绑 定 到 特定 范围 ， 对 某 些 算法 而 言 ， 
这 可 能 是 个 问题 〈 例 如 ， 神 经 网 络 期 望 的 输入 值 范围 通常 是 0 到 1) 。 
但 是 标准 化 的 方法 受 异常 值 的 影响 更 小 。 例 如 ,假设 某 个 地 区 的 平均 
收入 等 于 100 (错误 数据 。 最 小 -最 大 缩放 会 将 所 有 其 他 值 从 0~15 降 
到 0~0.15， 而 标准 化 则 不 会 受到 很 大 影响 。Scikit-Learn 提 供 了 一 个 标 
准 化 的 转换 器 StandadScaler。 
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J (包括 测试 集 ) 。 只 有 这 样 ， 才 能 使 用 它们 来 进行 转 
转换 流水 线 

正如 你 所 见 ， 许 多 数据 转换 的 步骤 需要 以 正确 的 顺序 来 执行 。 而 Scikit- 
Learn 正 好 提供 了 Pipeline 来 文 持 这 样 的 转换 。 下 面 是 一 个 数值 属性 的 流 
水 线 例子 : 

from sklearn.pipeline import Pipeline 


from sklearn.preprocessing import StandardScaler 


num_pipeline = Pipeline([ 
('imputer', Imputer(strategy="median")), 
('attribs_adder', CombinedAttributesAdder()), 


('std_scaler', StandardScaler()), 


housing _num_tr = num_pipeline.fit_transform(housing_num) 
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除了 最 后 一 个 是 估算 器 之 外 ， 前 面 都 必须 是 转换 器 (也 就 是 说 ， 必 须 
有 fit_transform () 方法 ) 。 至 于 命名 ， 可 以 随意 ， 你 喜欢 就 好 。 


当 调用 流水 线 的 fit O 方法 时 ， 会 在 所 有 转换 器 上 按照 顺序 依次 调用 
fit_transform O ， 将 一 个 调用 的 输出 作为 参数 传递 给 下 一 个 调用 方 
法 ， 直 到 传递 到 最 终 的 估算 器 ， 则 只 会 调用 fit O 方法 。 


流水 线 的 方法 与 最 终 的 估算 独 的 方法 相同 。 在 本 例 中 ， 最 后 一 个 估算 
器 是 StandardScaler， 这 是 个 转换 器 ， 因 此 Pipeline 有 transform () 方法 
可 以 按 顺序 将 所 有 的 转换 应 用 到 数据 中 (如 果 不 希 望 先 调用 fit () 再 
调用 transform () ， 也 可 以 直接 调用 fit_transform () 方法 ) 。 


现在 ， 你 已 经 有 了 一 个 处 理 数值 的 流水 线 ， 接 下 来 你 需要 在 分 类 值 上 
应 用 LabelBinarizer: 不 然 怎么 将 这 些 转 换 加 入 时 个 流水 线 中 ? Scikit- 
Learn 为 此 特意 提供 了 一 个 FeatureUnion 类 。 你 只 需要 提供 一 个 转换 器 列 
R (可 以 是 整个 转换 器 流水 线 ) ， 当 transform O 方法 被 调用 时 ， 它 
会 并 行 运行 每 个 转换 器 的 transform O 方法 ， 等 待 它们 的 输出 ， 然 后 
将 它们 连结 起 来 ， 返 回 结 果 (同样 地 ， 调 用 fit O 方法 也 会 调用 每 个 
i O DE) 。 一 个 完整 的 处 理 数值 和 分 类 属性 的 流水 线 可 
能 如 下 所 示 : 


from sklearn.pipeline import FeatureUnion 


num_attribs = list(housing_num) 


cat_attribs = ["ocean_proximity"] 


num_pipeline = Pipeline([ 


('selector', DataFrameSelector(num_attribs)), 


('imputer', Imputer(strategy="median")), 


('attribs_adder', CombinedAttributesAdder()), 


('std_scaler', StandardScaler()), 


1) 


cat_pipeline = Pipeline([ 


('selector', DataFrameSelector(cat_attribs)), 


('label_binarizer', LabelBinarizer()), 


1) 


full_pipeline = FeatureUnion(transformer_list=[ 


("num_pipeline", num_pipeline), 


("cat_pipeline", cat_pipeline), 


>>> housing_prepared = full_pipeline.fit_transform( housing) 


>>> housing_prepared 


array([[ 0.73225807, -0.67331551, 0©.58426443, ..., 0. , 
0. , ©, ]， 
[-©.99102923, 1.63234656, -0.92655887, ..., 0. : 


>>> housing_prepared.shape 

(16513, 17) 
每 条 子 流 水 线 从 选择 器 转换 器 开始 : 只 需要 挑 出 所 需 的 属性 (数值 或 
TR) ， 删 除 其 余 的 数据 ， 然 后 将 生成 的 DataFrame 转 换 为 NumPy 数 
组 ， 数 据 转换 束 完 成 了 。Scikit-Learn 中 没有 可 以 用 来 处 理 Pandas 


DataFrames 的 号 ， 因 此 我 们 需要 为 此 任务 编写 一 个 简单 的 上 自 定 义 转换 
Ar: 


from sklearn.base import BaseEstimator, TransformerMixin 


class DataFrameSelector(BaseEstimator, TransformerMixin): 
def _ init__(self, attribute_names): 
self.attribute_names = attribute_names 


def fit(self, X, y=None): 


return self 
def transform(self, X): 
return X[self.attribute_names].values 
(ILA Kitt RUA an, iB DL“API design for machine learning 
software : experiences from the scikit-learn project” , L.Buitinck , 
G.Louppe, M.Blondel, F.Pedregosa, A.Miiller, 等 人 (20134F) © 
(2) REEE SSSR DTI o 


[3] NumPy 的 reshape () ENA RIF —SERESET-1, tH MAE RTE”: 
该 值 由 数组 的 长 度 和 其 余 维度 来 推断 。 


[4] 详 见 SciPy 的 文档 。 
[5]. 不 过 查看 Pull Request #3886， 提 到 一 个 ColumnTransformer 类 可 以 让 


特定 属性 的 转换 更 容易 些 。 你 也 可 以 运行 pip3 install sklearn-pandas 来 获 
取 DataFrameMapper 类 ， 也 同样 可 以 达到 目的 。 


选择 和 训练 模型 


至 此 ， 你 框 出 了 问题 ， 获 得 了 数据 ， 也 进行 了 数据 探索 ， 然 后 对 训练 
集 和 测试 集 进 行 了 抽样 并 编写 了 转换 流水 线 ， 从 而 可 以 目 动 清理 和 准 
ere ee ! EGE ce BY (REPEL ee A >) BRA FE RTT UIA 


者 训 和 评估 训练 集 


好 消息 是 ， 在 经 过 前 面 的 步 又 之 后 ， 事 情 现 在 变 得 比 想 象 中 容易 很 
多 。 首 和 完 ， 如 同 我 们 在 上 一 章 所 做 的 ， 先 训练 一 个 线性 回归 模型 ; 


from sklearn.linear_model import LinearRegression 


lin_reg = LinearRegression() 


lin_reg.fit(housing_prepared, housing_labels) 


现在 你 有 一 个 可 以 工作 的 线性 回归 模型 了 。 让 我 们 用 几 个 训练 集 的 实 
例 试 试 : 

>>> some_data = housing.iloc[:5] 

>>> some_labels = housing_labels.iloc[:5] 

>>> some_data_prepared = full_pipeline.transform(some_data) 

>>> print("Predictions:\t", lin_reg.predict(some_data_prepared) ) 

Predictions: [ 303104. 44800. 308928. 294208. 368704.] 

>>> print("Labels:\t\t", list(some_labels)) 


Labels: [359400.0, 69700.0, 302100.0, 301300.0, 351900.0] 


可 以 工作 了 ， 虽 然 预测 还 不 是 很 准确 。 (例如 ， 第 二 次 的 预测 失效 超 
过 50%! ) 我 们 可 以 使 用 Scikitr-Learn 的 mean_squared_error 函 数 来 测量 
整个 训练 集 上 回归 模型 的 RMSE: 

>>> from sklearn.metrics import mean_squared_error 

>>> housing_predictions = lin_reg.predict(housing_prepared) 


>>> lin_mse = mean_squared_error(housing_labels, housing predictions) 


>>> lin_rmse = np.sqrt(lin_mse) 


>>> lin_rmse 


68628 . 413493824875 


好 吧 ， 这 虽然 比 什 么 都 没有 要 好 ， 但 显然 也 不 是 一 个 好 看 的 成 绩 ， 大 
多 数 地 区 的 median_housing_values 分 布 在 120000 到 265000 美 元 之 间 ， 所 
以 典型 的 预测 误差 达到 68628 美 元 只 能 算是 差强人意 。 这 束 是 一 个 典型 
的 模型 对 训练 数据 拟 合 不 足 的 案例 。 这 种 情况 发 生 时 ， 通 常 意味 着 这 
些 特征 可 能 无 法 提供 足够 的 信息 来 做 出 更 好 的 预测 ， 或 者 是 模型 本 寻 
不 够 强大 。 我 们 在 上 一 章 已 经 提 到 ， 想 要 修正 拟 合 不 足 ， 可 以 通过 选 
择 更 强大 的 模型 ， 或 是 为 算法 训练 提供 更 好 的 特征 ， 又 或 者 是 减少 对 
模型 的 限制 等 方法 。 我 们 这 个 模型 不 是 一 个 正则 化 的 模型 ， 所 以 就 排 
除了 最 后 那个 选项 。 你 可 以 试 试 添加 更 多 的 特征 (例如 ， 人 口 数量 的 
日 志 ) ， 但 首先 ， 让 我 们 尝试 一 个 更 复杂 的 模型 ， 看 看 它 到 底 是 怎么 
工作 的 。 

我 们 来 训练 一 个 DecisionTreeRegressor°。 这 是 一 个 非常 强大 的 模型 ， 它 


能 够 从 数据 中 找到 复杂 的 非 线性 关系 (关于 决策 树 在 第 6 章 会 有 更 详细 
的 介绍 ) 。 下 面 的 代码 现在 看 来 应 该 已 经 很 熟悉 了 : 


from sklearn.tree import DecisionTreeRegressor 


tree_reg = DecisionTreeRegressor() 


tree_reg.fit(housing_prepared, housing_labels) 


既然 这 个 模型 已 经 训练 有 素 ， 我 们 可 以 用 训练 集 来 评估 一 下 : 


>>> housing_predictions = tree_reg.predict(housing_prepared) 


>>> tree mse = mean_squared_error(housing_labels, housing_predictions) 


>>> tree_rmse = np.sqrt(tree_mse) 
>>> tree_rmse 


0.0 


等 等 ， 什 么 ! 完全 没有 错误 ? 这 个 模型 真 的 可 以 做 到 绝对 完美 吗 ? 当 
然 ， 更 有 可 能 的 是 这 个 模型 对 数据 严重 过 度 拟 合 了 。 我 们 怎么 确认 

Ne? 前 面 所 到 过 ， 在 你 有 信心 司 动 模型 之 前 ， 都 不 要 触 碰 测试 集 ， 所 
以 这 里 ， 你 需要 拿 训 练 集中 的 一 部 分 用 于 训练 ， 男 一 部 分 用 于 模型 的 


验证 。 
使 用 交叉 验证 来 更 好 地 进行 评估 


评估 决策 树 模型 的 一 种 方法 是 使 用 train_test_split 碎 数 将 训练 集 分 为 较 
小 的 训练 集 和 验证 集 ， 然 后 根据 这 些 较 小 的 训练 集 来 训练 模型 ， 并 对 
其 进行 评估 。 这 虽然 有 一 些 工作 量 ， 但 是 不 会 太 难 ， 并 且 非 常 有 效 。 


另 一 个 不 错 的 选择 是 使 用 Scikit-Learn 的 交叉 验证 功能 。 以 下 是 执行 代 - 
折 (K-fold) 交叉 验证 的 代码 : 它 将 训练 集 随 机 分 割 成 10 个 不 同 的 子 
集 ， 每 个 子 集 称 为 一 个 折 和 有 释 (fold) ， 然 后 对 决策 树 模 型 进行 10 次 训练 
和 评估 一 每 次 挑选 1 个 折 世 进行 评估 ， 使 用 另外 的 9 个 折 冯 进行 训 
练 。 产 出 的 结果 是 一 个 包含 10 次 评估 分 数 的 数组 : 


from sklearn.model_selection import cross_val_score 


scores = cross_val_score(tree_reg, housing_prepared, housing_labels, 


scoring="neg_mean_squared_error", cv=10) 


rmse_scores = np.sqrt(-scores) 


全 、 Scikit-Learn 的 交 义 验证 功能 更 倾向 于 使 用 效用 函数 ( 越 大 越 好 ) 
而 不 是 成 本 函数 ( 越 小 越 好 ) ， 所 以 计算 分 数 的 函数 实际 上 是 负 的 
MSE 〈 一 个 负 值 ) 函数 ， 这 就 是 为 什么 上 面 的 代码 在 计算 平方 根 之 前 
会 移 计 算出 -scores ° 


让 我 们 看 看 结 


>>> def display_scores(scores): 
print("Scores:", scores) 
print("Mean:", scores.mean()) 


print("Standard deviation:", scores.std()) 


>>> display_scores(tree_rmse_scores) 

Scores: [ 74678.4916885 64766 . 2398337 69632.86942005 69166.67693232 
71486.76507766 73321.65695983 71860.04741226 71086.32691692 
76934 .2726093 69060 . 93319262] 

Mean: 71199.4280043 


Standard deviation: 3202.70522793 


这 次 的 决策 树 模型 好 像 不 如 之 前 表现 得 好 。 事 实 上 ， 看 起 来 简直 比 线 
性 回归 模型 还 要 糟糕 ! 请 注意 ， 交 叉 验 证 不 仅 可 以 得 到 一 个 模型 性 能 
的 评估 值 ， 还 可 以 衡量 该 评估 的 精确 度 〈 即 其 标准 偏差 ) 。 这 里 该 决 
策 树 得 出 的 评分 约 为 71200， 上 下 浮动 +3200。 如 果 你 只 使 用 了 一 个 验 
证 集 ， 束 收 不 到 这 样 的 结果 信息 。 交 义 验 证 的 代价 束 是 要 多 次 训练 模 
型 ， 因 此 也 不 是 永远 都 行 得 通 。 


保险 起 见 ， 让 我 们 也 计算 一 下 线性 回归 模型 的 评分 : 


>>> lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels, 


scoring="neg_mean_squared_error", cv=10) 


>>> lin_rmse_scores = np.sqrt(-lin_scores) 
>>> display_scores(lin_rmse_scores) 
Scores: [ 70423.5893262 65804.84913139 66620.84314068 72510.11362141 
66414. 74423281 71958.89083606 67624.90198297 67825.36117664 
72512 .36533141 68028.11688067] 
Mean: 68972.377566 
Standard deviation: 2493.98819069 
没 错 ， 决 策 树 模型 确实 是 严重 过 度 拟 合 了 ， 以 至 于 表现 得 比 线性 回归 
PRAIA RETR ° 
我 们 再 来 试 试 最 后 一 个 模型 : RandomForestRegressor 。 在 后 面 的 第 7 章 
中 ， 我 们 将 会 了 解 到 随机 森林 的 工作 原理 ， 通 过 对 特征 的 随机 子 集 进 
行 许多 个 决策 树 的 训练 ， 然 后 对 其 预测 取 平 均 。 在 多 个 模型 的 基础 之 


上 建立 模型 ， 称 为 集成 学 习 ， 这 有 是 进一步 推动 机 融 学 习 算 法 的 好 方 
法 。 这 里 我 们 将 跳 过 大 部 分 代码 ， 因 为 与 其 他 模型 基本 相同 : 


>>> from sklearn.ensemble import RandomForestRegressor 


>>> forest_reg = RandomForestRegressor() 


>>> forest_reg.fit(housing prepared, housing_labels) 


>>> [...] 


>>> forest_rmse 


22542 . 396440343684 


>>> display_scores(forest_rmse_scores) 


Scores: [ 53789.2879722 50256.19806622 52521.55342602 53237.44937943 


52428 .82176158 55854.61222549 52158.02291609 50093.66125649 


53240.80406125 52761.50852822] 


Mean: 52634.1919593 


Standard deviation: 1576.20472269 


哇 ， 这 个 就 好 多 了 : 随机 森林 看 起 来 很 有 戏 。 但 是 ， 请 注意 ， 训 练 集 
上 的 分 数 仍然 远 低 于 验证 集 ， 这 意味 着 该 模型 仍然 对 训练 集 过 度 拟 
合 。 过 度 拟 合 的 可 能 解决 方案 包括 简化 模型 、 约 束 模型 (即使 其 正规 
化 ) ， 或 是 获得 更 多 的 训练 数据 。 不 过 在 深入 探索 随机 森林 之 前 ， 你 
应 该 先 尝试 一 忆 各 种 机 器 学 习 算法 的 其 他 模型 ( 几 种 具有 不 同 内 核 的 
文 持 回 量 机 ， 比 如 神经 网 络 模型 等 ) ， 但 是 记 住 一 一 别 伦 太 多 时 间 去 
调整 超 参 数 。 我 们 的 目的 是 筛选 出 几 个 《2 一 5 个 ) 有 效 的 模型 。 


和 每 一 个 尝试 过 的 模型 你 都 应 该 妥 状 傈 存 ， 这 样 将 来 你 可 以 轻松 回 到 
你 想 要 的 模型 当中 。 记 得 还 要 同时 保存 超 参 数 和 训练 过 的 参数 ， 以 及 

交叉 验证 的 评分 和 实际 预测 的 结果 。 这 样 你 就 可 以 轻松 地 对 比 不 同 模 

型 类 型 的 评分 ， 以 及 不 同 模 型 造成 的 错误 类 型 。 通 过 Python 的 pickel 模 
块 或 是 sklearn.externals.joblib， 你 可 以 轻松 保存 Scikit-Learn 模 型 ， 这 样 
可 以 更 有 效 地 将 大 型 NumPy 数 组 序列 化 : 


from sklearn.externals import joblib 


joblib.dump(my_model, "my_model.pkl") 


# and later... 


my_model_loaded = joblib.load("my_model.pkl") 


微调 模型 


假设 你 现在 已 经 有 了 一 个 有 效 模型 的 候选 列表 。 现 在 你 需要 的 是 对 它 
们 进行 微调 。 我 们 来 看 儿 个 可 行 的 方法 。 


网 格 搜索 


一 种 微调 的 方法 是 手动 调整 超 参 数 ， 找 到 一 组 很 好 的 超 参数 值 组 合 。 
这 个 过 程 非常 枯燥 乏味， 你 可 能 坚持 不 到 足够 的 时 间 来 探索 出 各 种 组 


& o 


相反 ， 你 可 以 用 Scikit-Learn 的 GridSearchCV 来 奉 你 进行 探索 。 你 所 要 
做 的 只 是 告诉 它 你 要 进行 实验 的 超 参 数 是 什么 ， 以 及 需要 尝试 的 值 ， 
它 将 会 使 用 交叉 验证 来 评估 超 参 数值 的 所 有 可 能 的 组 合 。 例 如 ， 下 面 
这 段 代码 搜索 RandomForestRegressor 的 超 参数 值 的 最 佳 组 合 : 


from sklearn.model_selection import GridSearchcCv 


param_grid = [ 
{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, 


{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}, 


forest_reg = RandomForestRegressor() 


grid_search = GridSearchCv(forest_reg, param_grid, cv=5, 


scoring='neg_mean_squared_error') 


grid_search.fit(housing_prepared, housing_labels) 


Re 当 你 不 知道 知道 超 参 数 应 该 赋 什 么 值 时 ， 一 个 人 简单 的 方法 是 连续 尝试 10 
的 第 次 方 《如果 你 想 要 得 到 更 细 粒 度 的 搜索 ， 可 以 参考 这 eae 
示 的 n_estimators 超 参数 ) 。 


这 个 param_grid 告 诉 Scikit-Leam， 首 先 评估 第 一 个 dict 中 的 n_estimator 和 
max_features 的 所 有 3x4= 12 种 超 参 数值 组 合 〈 移 不 要 担心 这 些 超 参数 
现在 意味 着 什么 ， 我 们 将 在 第 7 章 中 进行 解释 ) ， 接 着 ， 党 试 第 二 个 

dict 中 超 参数 值 的 所 有 2x3 = 6 种 组 合 ， 但 这 次 超 参数 bootstrap 需 要 设置 
为 False 而 不 是 True (True 是 该 超 参数 的 默认 值 ) 。 


总 而 言 之 ， 网 格 搜索 将 探索 RandomForestRegressor 超 参数 值 的 12 十 6= 
18 种 组 合 ， a 
证 ) o 90 次 训练 ! 这 可 能 需要 相当 长 的 
Mid), REMEMBER SALA, 


>>> grid_search.best_params_ 


{'max_features': 6, 'n_estimators': 30} 


Fe 因为 被 评估 的 nestmator 最 大 值 是 30， 你 还 可 以 试 试 更 高 的 值 ， 评 


分 可 能 还 会 继续 改善 。 


你 可 以 直接 得 到 最 好 的 估算 山 : 


>>> grid_search.best_estimator_ 

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None, 
max_features=6, max_leaf_nodes=None, min_samples_leaf=1, 
min_samples_split=2, min_weight_fraction_leaf=0.0, 
n_estimators=30, n_jobs=1, oob_score=False, random_state=None, 
verbose=0, warm_start=False) 


如 果 GridSearchCV 被 初始 化 为 refit=True 〈 这 也 是 默认 值 ) ， 那 么 一 旦 
通过 交叉 验证 找到 了 最 佳 估 算 器 ， 它 将 在 整个 训练 集 上 重新 训练 。 这 


> H 
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当然 还 有 评估 分 数 : 


>>> cvres = grid_search.cv_results_ 


. for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]): 


print(np.sqrt(-mean_score), params) 


64912.0351358 {'max_features': 2, 'n_estimators': 3} 


55535.2786524 {'max_features': 2, 'n_estimators': 10} 

52940.2696165 {'max_features': 2, 'n_estimators': 30} 

60384.0908354 {'max_features': 4, 'n_estimators': 3} 

52709.9199934 {'max_features': 4, 'n_estimators': 10} 

50503 .5985321 {'max_features': 4, 'n_estimators': 30} 

59058.1153485 {'max_features': 6, 'n_estimators': 3} 

52172.0292957 {'max_features': 6, 'n_estimators': 10} 

49958 .9555932 {'max_features': 6, 'n_estimators': 30} 

59122.260006 {'max_features': 8, 'n_estimators': 3} 

52441.5896087 {'max_features': 8, 'n_estimators': 10} 

50041.4899416 {'max_features': 8, 'n_estimators': 30} 

62371.1221202 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3} 
54572.2557534 {'bootstrap': False, 'max_features': 2, 'n_estimators': 10} 
59634.0533132 {'bootstrap': False, 'max_features': 3, 'n_estimators': 3} 
52456.0883904 {'bootstrap': False, 'max_features': 3, 'n_estimators': 10} 
58825.665239 {'bootstrap': False, 'max_features': 4, 'n_estimators': 3} 
52012.9945396 {'bootstrap': False, 'max_features': 4, 'n_estimators': 10} 


在 本 例 中 ， 我 们 得 到 的 最 佳 解决 方案 是 将 超 参数 max_features 设 置 为 
6，n_estimators 设 置 为 390。 这 个 组 合 的 RMSE 分 数 为 49959， 略 高 于 之 前 


使 用 上 默认 超 参 数值 的 分 数 52634。 茶 喜人 你 ， 你 成 功 地 将 你 的 模型 调整 到 
J BERT ! 


ATEST, 有 上 毕 数据 准备 的 步骤 也 可 以 当 作 超 参数 来 处 理 。 例 如 ， 
网 格 搜索 会 自动 查找 是 否 添 加 你 不 确定 的 特征 〈 比 如 是 否 使 用 转换 器 
CombinedAttributesAdder 的 超 参 数 add_bedrooms_per_room) 。 同 样 ， 
还 可 以 用 它 来 自动 寻找 处 理 问题 的 最 佳 方法 ， 例 如 处 理 异 常 值 、 缺 失 
特征 ， 以 及 特征 选择 等 。 


随机 搜索 


如 果 探 索 的 组 合 数量 较 少 一 一 例如 上 一 个 示例 ， 网 格 搜索 是 一 个 不 错 
的 方法 ; 但 是 当 超 参数 的 搜索 范围 (search space) 较 大 时 ， 通 常会 优 
先 选 择 使 用 RandomizedSearchCV。 这 个 类 用 起 来 与 GridSearchCV 类 大 
臻 相同 ， 但 它 不 会 尝试 所 有 可 能 的 组 合 ， 而 是 在 每 次 迭代 中 为 每 个 超 
参数 选择 一 个 随机 值 ， 然 后 对 一 定数 量 的 随机 组 合 进 行 评 估 。 这 个 方 
法 有 两 个 显著 特性 : 


-如 来 运行 随机 搜索 1000 个 迭代 ， 那 么 将 会 探索 每 个 超 参 数 的 1000 个 不 
ae (而 不 是 像 网 格 搜索 方法 那样 每 个 超 参 数 仅 探索 少量 几 个 


通过 位 单 地 设置 迭代 次 数 ， 可 以 更 好 地 控制 要 分 配给 探索 的 超 参 数 的 
计算 预算 。 
集成 方法 


还 有 一 种 微调 系统 的 方法 是 将 表现 最 优 的 模型 组 合 起 来 。 组 合 (或 “ 集 
成 ”) 方法 通常 比 最 佳 的 单一 模型 更 好 (就 像 随机 森林 比 其 所 依赖 的 任 
何 单个 决策 树 模 型 更 好 一 样 ) ， 特 别 是 当 单 一 模型 会 产生 严重 不 同类 
型 的 错误 时 更 是 如 此 。 我 们 将 在 第 7 章 中 更 详细 地 介绍 这 个 主题 。 


分 析 最 佳 模 型 及 其 错误 


通过 检查 最 佳 模型 ， 你 总 是 可 以 得 到 一 些 好 的 洞 见 。 例 如 在 进行 准确 
预 估 时，Random ForestRegressor 可 以 指出 每 个 属性 的 相对 重要 程度 : 


>>> feature_importances = grid_search.best_estimator_.feature_importances_ 


>>> feature_importances 


array([ 7.14156423e-02, 6.76139189e-02, 4.44260894e-02, 


1.66308583e-02, 1.66076861e-02, 1.82402545e-02, 


1.63458761e-02, 3.26497987e-01, 6.04365775e-02, 


1.13055290e-01, 7.79324766e-02, 1.12166442e-02, 


1.53344918e-01, 8.41308969e-05, 2.68483884e-03, 


3.46681181e-03]) 


将 这 些 重 要 性 分 数 显 示 在 对 应 的 属性 名 称 旁 边 : 


>>> extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"] 
>>> cat_one_hot_attribs = list(encoder.classes_) 
>>> attributes = num_attribs + extra_attribs + cat_one_hot_attribs 
>>> sorted(zip(feature_importances, attributes), reverse=True) 
[(90.32649798665134971, 'median_income'), 

(0.15334491760305854, 'INLAND'), 

(©.11305529021187399, 'pop_per_hhold'), 

(0.07793247662544775, 'bedrooms_per_room'), 


©.071415642259275158, 'longitude'), 
g 


(0.067613918945568688, 'latitude'), 
(0.060436577499703222, 'rooms_per_hhold'), 
(0.04442608939578685, 'housing_median_age'), 
(0.018240254462909437, 'population'), 
(0.01663085833886218, 'total_rooms'), 
(0.016607686091288865, 'total_bedrooms'), 
(0.016345876147580776, 'households'), 
(0.011216644219017424, '<1H OCEAN'), 
(0.0034668118081117387, 'NEAR OCEAN'), 

(0 .0026848388432755429, 'NEAR BAY'), 
(8.4130896890070617e-05, 'ISLAND')] 


有 了 这 些 信息 ， 你 可 以 尝试 删除 一 些 不 太 有 用 的 特征 (例如 ， 本 例 中 
只 有 一 个 ocean_proximity 是 有 用 的 ， 我 们 可 以 试 着 删除 其 他 所 有 特 
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征 ) 。 


然后 ， 你 还 应 该 查看 一 下 系统 产生 的 具体 错误 ， 淮 试 了 解 它 们 是 怎么 
产生 的 ， 以 及 该 上 怎么 解决 (通过 添加 额外 的 特征 ， 或 是 删除 没有 信息 


的 特征 ， 清 除 异 常 值 ， 等 等 )。 
通过 测试 集 评估 系统 


通过 一 段 时 间 的 训练 ， 你 终于 有 了 一 个 表现 足够 优秀 的 系统 。 现 在 是 
用 测试 集 评估 最 终 模 型 的 时 候 了 。 这 个 过 程 没 有 什么 特别 的 ， 只 需 
从 测试 集中 获取 预测 器 和 标签 ， 运 行 full_pipeline 来 转换 数据 (调用 
transform () 而 不 是 fit_transform () ) ， 然 后 在 测试 集 上 评估 最 终 模 


final model = grid_search.best_estimator_ 


X_test = strat_test_set.drop("median_house_value", axis=1) 
y_test = strat_test_set["median_house_value"].copy() 
X_test_prepared = full_pipeline.transform(X_test) 


final_predictions = final_model.predict(X_test_prepared) 


final mse = mean_squared_error(y_test, final_predictions) 


final_rmse = np.sqrt(final_mse) # => evaluates to 48,209.6 


如 朱 之 前 进行 过 大 量 的 超 参数 调整 ， 这 时 的 评 佑 结果 通常 会 略 过于 你 
之 前 使 用 交叉 验证 时 的 表现 结果 《因为 通过 不 断 调整 ， 系 统 在 验证 数 
据 上 终于 表现 良好 ， 在 未 知 数据 集 上 可 能 达 不 到 这 么 好 的 效果 ) 。 在 
本 例 中 ， 结 末 虽 然 并 非 如 此 ， 但 是 当 这 种 情况 发 生 时 ， 你 一 定 要 私 住 
继续 调整 超 参 数 的 诱惑 ， 不 要 试图 再 努力 让 测试 集 的 结果 也 变 得 好 看 
一 些 ， 因 为 这 些 改 进 在 泛 化 到 新 的 数据 集 时 又 会 变 成 徒劳 。 


现在 进入 项 目 预 启 动 阶段 : 你 将 要 展示 你 的 解决 方案 (强调 学 习 了 什 
么 ， 什 么 有 用 ， 什 么 没有 用 ， 基 于 什么 假设 ， 以 及 系统 的 限制 有 哪 
些 ) ， 记 录 所 有 事情 ， 通 过 清晰 的 可 视 化 和 易于 记忆 的 陈述 方式 ， 制 
作 漂 亮 的 演示 文稿 〈 例 如 , “收入 中 位 数 是 预测 房价 的 首要 指标 ?2) 。 


局 动 、 监 挖 和 维护 系统 


你 的 系统 获准 启动 了 ! 你 需要 为 生产 环境 做 好 准备 ， 特 别 是 将 生产 数 
据 源 接 入 系统 ， 并 编写 测试 。 


还 需要 编写 监控 代码 ， 以 定期 检查 系统 的 实时 性 能 ， 同 时 在 性 能 下 降 
时 触发 警报 。 重 要 的 是 ， 这 里 需要 捕捉 的 不 仅 只 是 突然 的 系统 朋 涡 ， 
系统 性 能 的 退化 也 值得 关注 。 这 个 问题 很 常见 ， 因 为 随 着 时 间 的 推 
移 ， 数 据 不 断 进化 ， 模 型 会 渐渐 “ 腐 坏 "， 除 非 定期 使 用 新 数据 训练 模 


型 。 


评估 系统 性 能 ， 需 要 对 系统 的 预测 结果 进行 抽样 并 评估 。 通 常 这 一 步 
需要 人 工分 析 。 分 析 师 可 能 是 领域 专家 ， 或 者 是 众 包 平台 的 工作 人 员 

(例如 Amazon Mechanical Turk 或 CrowdFlower) 。 不 管 怎 么 说 ， 你 都 
需要 将 人 工 评估 的 流水 线 接 入 你 的 系统 。 


你 还 需要 评 们 输入 系统 的 数据 的 质量 。 质 量 较 差 的 数据 (比如 用 来 发 
送 随机 值 的 传感器 故障 ， 或 者 是 其 他 团队 的 输出 变 得 过 时 ) 会 导致 性 
能 略微 下 降 ， 但 是 要 降 到 触发 警报 还 需要 一 段 时 间 。 所 以 如 有 果 你 监控 
系统 的 输入 ， 束 可 以 更 快 地 捕捉 到 这 个 信号。 对 于 在 线 学 习 来 说 ， 监 
控 系 统 输入 尤其 重要 。 


一 般 来 说 ， 最 后 你 要 使 用 新 鲜 数 据 定期 训练 你 的 模型 。 这 个 过 程 要 尽 

可 能 自动 化 。 如 阁 不 然 ， 你 很 有 可 能 每 6 个 月 (最 多 ) 需要 更 新 一 次 你 
的 模型 ， 久 而 久之 ， 系 统 性 能 也 会 发 生 严 重 波动 。 如 果 是 在 线 学 习 系 

T EFH ERRE Z AAS 

工作 状态 。 


hia 

希望 通过 本 章 内 容 ， 能 够 让 你 了 解 一 个 机 器 学 习 项 目 大 概 是 什么 样 
子 ， 同 时 本 章 也 提供 了 一 些 用 来 训练 系统 的 工具 。 如 你 所 见 ， 大 部 分 
工作 主要 用 在 数据 准备 、 构 建 监 控 工具 、 建 立 人 工 评估 的 流水 线 以 及 
自动 定期 训练 模型 上 。 机 器 学 习 的 算法 固然 重要 ， 但 是 最 好 还 是 对 整 
个 流程 都 熟悉 一 遍 ， 掌 握 3~-4 个 合适 的 算法 ， 不 要 将 所 有 的 时 间 都 用 
来 探索 高 级 的 算法 ， 而 对 整个 流程 视而不见 。 


如 采 你 还 没有 动手 莹 试 ， 现 在 是 打开 电脑 的 好 时 机 ， 选 择 一 个 你 感 兴 
趣 的 数据 集 ， 演 试 从 A 到 Z 的 整个 过 程 。 诸 如 http://kaggle.com/ 的 竞赛 
网 站 是 一 个 不 错 的 起 点 ， 它 会 给 你 一 个 数据 集 、 一 个 明确 的 目标 ， 以 
及 可 以 一 起 分 享 经 验 的 同伴 。 


练习 


使 用 本 章 的 房屋 数据 集 ; 


1. 使 用 不 同 的 超 参 数 ， 如 kernel="linear" (具有 C 超 参数 的 多 种 值 ) 或 

kernel="rbf"”(C 超 参数 和 gamma 超 参数 的 多 种 值 ， ， 党 试 一 个 支持 问 量 
机 回归 器 ， 不 用 担心 现在 不 知道 这 些 超 参数 的 含义 。 最 好 的 SVR 预 测 

侣 是 如 何 工作 的 ? 


2. 尝 试用 RandomizedSearchCV 替 换 GridSearchCV ° 

3. 党 试 在 准备 流水 线 中 添加 一 个 转换 器 ， 从 而 只 选 出 最 重要 的 属性 。 
4. 尝 试 创建 一 个 履 盖 完整 的 数据 准备 和 最 终 预测 的 流水 线 。 

5. 使 用 GridSearchCV 自 动 探 索 一 些 准备 选项 。 


以 上 练习 的 解决 方案 可 以 在 Jupyter 笔 记 本 上 获得 ， 链 接地 址 为 : 


https://github.com/ageron/handson-ml_ ° 
Da a se a Ni 22 
BIE 分 类 


第 1 章 提 到 ， 最 汝 见 的 监督 式 学 习 任务 包括 回归 任务 (预测 值 ) 和 分 类 
任务 (预测 类 ) 。 第 2 对 探讨 了 一 个 回归 任务 一 一 预测 住房 价格 ， 用 到 
了 线性 回归 、 决 策 树 以 及 随机 森林 等 各 种 算法 (我 们 将 会 在 后 续 章 市 
中 进一步 讲解 这 些 算法 ) 。 本 章 中 我 们 将 把 注意 力 转向 分 类 系统 。 


MNIST 


本 章 将 使 用 MNIST 数 据 集 ， 这 是 一 组 由 美国 高 中 生 和 人 口 调 查 局 员工 
手写 的 70000 个 数 子 的 图 片 。 每 张 图 像 都 用 其 代表 的 数字 标记 。 这 个 数 
据 集 被 广 为 使 用 ， 因 此 也 被 称 作 十 机 器 学 习 领 域 的 “Hello World”: 但 凡 
有 人 想到 了 一 个 新 的 分 类 算法 ， 都 会 想 看 看 在 MNIST 上 的 执行 结 
因此 只 要 是 学 习 机 天 学 习 的 人 ， 早 晚 都 要 面 对 MNIST 。 


Scikit-Learn 提 供 了 许多 助手 功能 来 帮助 你 下 载 流行 的 数据 集 。MNIST 
也 是 其 中 之 一 。 下 面 是 获取 MNIST 数 据 集 的 代码 : H 


>>> from sklearn.datasets import fetch_mldata 


>>> mnist = fetch_mldata('MNIST original' ) 


>>> mnist 


{'COL_NAMES': ['label', 'data'], 


"DESCR': 'mldata.org dataset: mnist-original', 
‘data': array([[0, ©, ©, ..., ©, 0, 0], 

[0, ©, 0, ..., 0, ©, 0], 

[0, ©, 0, ..., 0, ©, 0], 

/ 

[0, ©, ©, ..., ©, ©, 0], 

[0, ©, 0, ..., 0, ©, 0], 

[0, ©, 0, ..., ©, ©, 0]], dtype=uint8), 
'target': array([ 0., 0., 0, ..., 9., 9., 9.])} 


Scikit-Learn 加 载 的 数据 集 通 常 具 有 类 似 的 字典 结构 ， 包 括 : 
.DESCR 键 ， 描 述 数据 集 

.data 键 ， 包 含 一 个 数组 ， 每 个 实例 为 一 行 ， 每 个 特征 为 一 列 
target 键 ， 包 含 一 个 带 有 标记 的 数组 

我 们 来 看 看 这 些 数组 : 


>>> X, y = mnist["data"], mnist["target"] 
>>> X.shape 
(70000, 784) 
>>> y.shape 


(70000, ) 


共有 7 万 张 图 片 ， 每 张 图 片 有 784 个 特征 。 因 为 图 片 是 28x28 像 素 ， 每 个 
特征 代表 了 一 个 像素 点 的 强度 ， 从 0 (白色 ) 到 255 (WE) 。 先 来 看 
看 数据 集中 的 一 个 数字 ， 你 只 需要 随手 抓 取 一 个 实例 的 特征 向 量 ， 将 
其 重新 形成 一 个 28x28 数 组 ， 然 后 使 用 Matplotlib 的 imshow () ACK 
其 显示 出 来 : 

%matplotlib inline 


import matplotlib 


import matplotlib.pyplot as plt 


some_digit = X[36000] 


some_digit_image = some_digit.reshape(28, 28) 


plt.imshow(some_digit_image, cmap = matplotlib.cm.binary, 
interpolation="nearest") 


plt.axis("off") 


plt.show() 


看 起 来 像 一 个 5， 而 标签 告诉 我 们 没 铺 ; 


>>> y[36000] 


5.0 


图 3-1 显 示 了 更 多 MNIST 数 据 集 中 的 数字 图 像 ， 让 你 对 分 类 任务 的 复杂 
程度 有 一 个 初步 的 感受 。 


可 是 等 等 ! 在 开始 深入 人 研究 这 些 数 据 之 前 ， 你 还 古 应 该 先 创建 一 个 测 


试 集 ， 并 将 其 放 在 一 边 。 事 实 上 MNIST 数 据 集 已 经 分 成 训练 集 (前 6 万 
张 图 像 ， 和 测试 集 〈 最 后 1 万 张 图 像 ) 了 : 


X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000: ] 
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图 3-1: MNIST 数 据 集中 的 部 分 数字 图 像 


同样 ， 我 们 先 将 训练 集 数 据 洗 牌 ， 这 样 角 PRUE SC MERT ri HIST E 
都 差不多 〈 你 肯定 不 布 望 某 个 折枝 丢失 一 些 数字 ) 。 此 外 ， 有 些 n 
FREN VIR OA Ie BUR, MRES 输入 许多 相似 的 实例 
能 导致 执行 性 能 不 佳 。 给 数据 集 洗 牌 正 是 为 了 确保 这 种 情况 不 会 ig 
Æ. [2] 


import numpy as np 


shuffle_index = np.random.permutation(60000) 


X_train, y_train = X_train[shuffle_index], y_train[shuffle_index] 
[默认 情况 下 ，ScikitrLeamn 4 F $k 69 2h fa Re FE AO 
$HOME/scikit_learn_data# ° 
(2) .在 某 些 情况 下 ， 给 数据 洗 牌 可 能 是 个 坏 主意 一 比如 你 处 理 的 是 时 间 
序列 数据 〈 例 如， 股票 市 场 价 格 或 者 天 气 情 况 ) 。 我 们 将 在 下 一 章 探 


讨 这 个 问题 。 
训练 一 个 二 元 分 类 禹 
现在 ， 先 简化 问题 ， 只 尝试 识别 一 个 数字 一 一 比如 数字 5。 那 么 这 


个 "数字 5 检测 套 ? 束 是 一 个 二 元 分 类 天 的 例子 ， 它 只 能 区 分 两 个 类 别 : 
5 和 非 5。 先 为 此 分 类 任务 创建 目标 向 量 : 


y_train 5 = (y_train == 5) # True for all 5s, False for all other digits. 


y_test 5 = (y_test == 5) 


接着 挑选 一 个 分 类 器 并 开始 训练 。 一 个 好 的 初始 选择 是 随机 梯度 下 降 
(SGD) 分 类 器 ， 使 用 Scikit-Learm 的 SGDClassifier 类 即 可 。 这 个 分 类 器 
的 优势 是 ， 能 够 有 效 处 理 非常 大 型 的 数据 集 。 这 部 分 是 因为 SGD 独 立 
处 理 训 | 练 实例 ， 一 次 一 个 (这 也 使 得 SGD 非 常 适合 在 线 学 习 ) ， 稍 后 
eee: 。 此 时 先 创 建 一 个 SGDClassifier 并 在 整个 训练 集 上 进行 训 
Z 


一 小 : 


from sklearn.linear_model import SGDClassifier 


sgd_clf = SGDClassifier(random_state=42) 


sgd_clf.fit(X_train, y_train_5) 


SGDClassifier 在 训练 时 是 完全 随机 的 (因此 得 名 “随机 ”) ， 如 果 你 希望 
得 到 可 复 现 的 结果 ， 需 要 设置 参数 random_state。 


现在 可 以 用 它 来 检测 数字 5 的 图 像 了 : 


>>> sgd_clf.predict([some_digit]) 


array([ True], dtype=bool1) 


分 类 器 猜 这 个 图 像 代 表 一 个 5 (True) 。 看 起 来 这 次 它 猜 对 了 ! 那么 ， 
下 面 评估 一 下 这 个 模型 的 性 能 。 


性 能 考核 

评估 分 类 器 比 评估 回归 器 要 困难 得 多 ， 因 此 本 章 将 用 很 多 篇 幅 来 讨论 

这 个 主题 ， 同 时 会 涉及 许多 性 能 考核 的 方法 ， 所 以 ， 不 妨 再 倒 一 杯 咖 

啡 ， 做 好 准备 学 习 更 多 的 新 概念 和 缩 略 词 吧 ! 

使 用 交叉 验证 测量 精度 

正如 第 2 章 所 述 ， 交 叉 验 证 是 一 个 评估 模型 的 好 办 法 。 
实施 交 义 验证 

相 比 于 cross_val_score () 这 一 类 交叉 验证 的 函数 ， 有 时 你 可 能 希望 自 

己 能 控制 得 多 一 些 。 在 这 种 情况 下 ， 你 可 以 目 行 实施 交 广 验证 ， 操 作 


也 简单 明了 。 下 面 这 段 代码 与 前 面 的 cross_val_score () 大 致 相同 ， 并 
打印 出 相同 的 结果 : 


from sklearn.model_selection import StratifiedKFold 


from sklearn.base import clone 


skfolds = StratifiedKFold(n_splits=3, random_state=42) 


for train_index, test_index in skfolds.split(X_train, y_train_5): 


clone_clf = clone(sgd_clf) 


X_train_folds = X_train[train_index] 


y_train_folds = (y_train_5[train_index] ) 


X_test_fold = X_train[test_index] 


y_test_fold = (y_train_5[test_index] ) 


clone_clf.fit(X_train_folds, y_train_folds) 
y_pred = clone_clf.predict(X_test_fold) 
n_correct = sum(y_pred == y_test_fold) 
print(n_correct / len(y_pred)) # prints 0.9502, 0.96565 and 0.96495 
每 个 折 县 由 StratifiedKFold 执 行 分 层 抽 样 (2) 产生 ， 其 所 包含 的 
各 个 类 的 比例 符合 整体 比例 。 每 个 迭代 会 创建 一 个 分 类 器 的 副本 ， 用 
训练 集 对 这 个 副本 进行 训练 ， 然 后 用 测试 集 进行 预测 。 最 后 计算 正确 
预测 的 次 数 ， 输 出 正确 预测 的 比率 。 
现在 ， 用 cross_val_score () 函数 来 评估 SGDClassifier 模 型 ， 采 用 K-fold 
交叉 验证 法 ，3 个 折 县 。 记 住 ，K-fold 交 叉 验 证 的 意思 是 将 训练 集 分 解 
RK ME 〈 在 本 例 中 ， 为 3 折 ) ， 然 后 每 次 留 其 中 1 个 折 肢 进行 预测 ， 
剩余 的 折 和 县 用 来 训练 〈 参 见 第 2 章 ) : 
>>> from sklearn.model_selection import cross_val_score 
>>> cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy") 
array([ 0.9502 , 0.96565, 0©.96495]) 
所 有 折 和 县 交叉 验证 的 准确 率 (正确 预测 的 比率 ) 超过 95%? 看 起 来 挺 神 


STAY, EMS? 不 过 在 你 开始 激动 之 前 ， 我 们 来 看 一 个 春 笨 的 分 类 器 ， 
ERE EEK AL AB SR AES”: 


from sklearn.base import BaseEstimator 


class Never5Classifier(BaseEstimator ): 
def fit(self, X, y=None): 
pass 
def predict(self, X): 


return np.zeros((len(X), 1), dtype=bool) 


能 猜 到 这 个 模型 的 准确 度 吗 ? 我 们 看 看 : 


>>> never_5_clf = Never5Classifier() 
>>> cross_ val score(never_5 clf, X_train, y_train_5, cv=3, scoring="accuracy") 


array([ 0.909 , 0.90715, 0.9128 ]) 


没 错 ， 谁 确 率 超 过 90%! 这 是 因为 只 有 大 约 10% 的 图 像 是 数字 5， 所 以 
如 采 你 猜 一 张 图 不 是 s，90% 的 时 间 你 都 是 正确 的 ， 简 直 超 越 了 大 预言 
家 | 


这 说 明 准 确 率 通 前 无 法 成 为 分 类 此 的 首要 性 能 指标 ， 特 别 是 当 你 处 理 
偏 斜 数据 集 (skewed dataset) 的 时 候 ( 即 某 些 类 比 其 他 类 更 为 频 


ie) 


混 清 矩阵 
评 个 分 类 万 性 能 的 更 好 方法 是 寓 清 和 矩阵。 总 体 思路 残 宇 统计 A 类 别 实例 


被 分 成 为 B 夫 别 的 次 数 。 例 如 ， 要 想 知 道 分 类 垦 将 数字 3 和 数字 5 混 消 多 
少 次 ， 只 需要 通过 混淆 矩阵 的 第 5 行 第 3 列 来 查看 。 


要 计算 混 消 矩阵 ， 需 要 先 有 一 组 预测 才能 将 其 与 实际 目标 进行 比较 。 
当然 可 以 通过 测试 集 来 进行 预测 ， 但 是 现在 先 不 要 动 它 (测试 集 最 好 
留 到 项 目 最 后 ， 准 备 启动 分 类 器 时 再 使 用 ) 。 作 为 替代 ， 可 以 使 用 
cross_val_predict () PRA: 


from sklearn.model_selection import cross_val_predict 


y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3) 


与 cross_val_score () 画 数 一 样 ，cross_val_predict () 函数 同样 执行 K- 
fold 交 叉 验 证 ， 但 返回 的 不 是 评估 分 数 ， 而 是 每 个 折 县 的 预测 。 这 意味 
着 对 于 每 个 实例 都 可 以 得 到 一 个 干净 的 预测 (“干净 ”的 意思 是 模型 预 
测 时 使 用 的 数据 ， 在 其 训练 期 间 从 未 见 过 ) 。 


现在 ， 可 以 使 用 confusion_matrix () 画 数 来 获取 混 清 矩阵 了 。 只 需要 
给 出 目标 类 别 (y_train_5) 和 预测 类 别 (y_train_pred) 即 可 : 


>>> from sklearn.metrics import confusion_matrix 


>>> confusion_matrix(y_train_5, y_train_pred) 


array([[53272, 1307], 


[ 1077, 4344]]) 


混 清 矩阵 中 的 行 表示 实际 类 别 ， 列 表示 预测 类 别 。 本 例 中 人 第 一 行 表示 
MAGES (AX) 的 图 片 中 : 53272 张 被 正确 地 分 为 “ 非 5” 类 别 ( 真 负 
类 ) ，1307 张 被 错误 地 分 类 成 了 “5” REX) ; 第 二 行 表示 所 

有 “5” (EX) 的 图 片 中 ，1077 张 被 错误 地 分 为 “ 非 5” 类 别 ( 假 负 类 ) ， 
4344 张 被 正确 地 分 在 了 “5” 这 一 类 别 (真正 类 ) 。 一 个 完美 的 分 类 器 只 
sears a 所 以 它 的 混 消 矩阵 只 会 在 其 对 角 线 EEIE 


>>> confusion_matrix(y_train_5, y_train_perfect_predictions) 


array([[54579, 0], 


[ ©, 5421]]) 


混 消 矩阵 能 提供 大 量 信息 ， 但 有 时 你 可 能 希望 指标 更 简 活 一 些 。 正 类 
E 
1) : 


o a Tp 
RE = IP + FP 


TP 是 真正 类 的 数量 ，FP 是 假 正 类 的 数量 。 


做 一 个 单独 的 正 类 预测 ， 并 确保 它 是 正确 的 ， 就 可 以 得 到 完美 精度 
(精度 =11= 100%) 。 但 这 没什么 意义 ， 因 为 分 类 器 会 忽略 这 个 正 类 
实例 之 外 的 所 有 内 容 。 因 此 ， 精 度 通 常 与 男 一 个 指标 一 起 使 用 ， 这 个 
指标 就 是 召回 率 (recall) ， 也 称 为 灵敏 度 (sensitivity) 或 者 真正 类 率 
(TPR) : 它 是 分 类 器 正确 检测 到 的 正 类 实例 的 比率 (公式 3-2) : 


2: 召回 率 rp 
ZZ W a = ———_—. 
aE TP + FN 


FN 是 假 负 类 的 数量 。 
如 采 你 对 混 请 矩阵 还 是 感到 疑惑 ， 图 3-2 或 许可 以 帮助 你 理解 。 


预测 


精度 
(例如 4 个 对 了 3 个 


Aas 
例如 5 个 里 找 出 了 3 人 


图 3-2: 图 解 混 清 矩阵 
精度 和 召回 率 
Scikit-Learn 提 供 了 计算 多 种 分 类 器 指标 的 函数 ， 精 度 和 


Td 
El 
区 
rau 


>>> from sklearn.metrics import precision_score, recall_score 


>>> precision_score(y_train_5, y_pred) # == 4344 / (4344 + 1307) 


0.76871350203503808 


>>> recall_score(y_train_5, y_train_pred) # == 4344 / (4344 + 1077) 


0.79136690647482011 


现在 再 看 ， 这 个 5- 检 测 右 看 起 来 似乎 并 不 像 它 的 准确 率 那 么 光鲜 亮 眼 
了 。 当 它 说 一 张 图 片 是 5 时 ， 只 有 77% 的 时 间 是 准确 的 ， 并 且 也 只 有 
79% 的 数字 5 被 它 EWERT < 


因此 我 们 可 以 很 方便 地 将 精度 和 召回 率 组 合成 一 个 单一 的 指标 ， 称 为 F 
1 分 数 。 当 你 需要 一 个 简单 的 方法 来 比较 两 种 分 类 器 时 ， 这 是 个 非常 不 
错 的 指标 。F ; 分 数 是 精度 和 召回 率 的 谐 波 平均 值 ( 见 公 式 3-3) 。 正 常 
的 平均 值 平等 对 竺 所 有 的 值 ， 而 谐 波 平均 值 会 给 予 较 低 的 值 更 高 的 权 
重 。 因 此 ， 只 有 当 召 回 率 和 精度 都 很 高 时 ， 分 类 器 才能 得 到 较 高 的 F 1 


分 数 。 


公式 3-3: F 1 分 数 


p = 2 PLETE EE TP 


| | 精度 + 召回 率 TP 4 FN + FP 


TRETE Eg 


要 计算 F ; 分 数 ， 只 需要 调用 fl_score () 即 可 : 


>>> from sklearn.metrics import f1_score 
>>> fi_score(y_train_5, y_pred) 
0.78468208092485547 


F ; 分 数 对 那些 具有 相近 的 精度 和 召回 率 的 分 类 器 更 为 有 利 。 这 不 一 定 
能 一 直 符合 你 的 期 望 : 在 某 些 情况 下 ， 你 更 关心 的 是 精度 ， 而 另 一 些 


情况 下 ， 你 可 能 真正 关心 的 是 召回 率 。 例 如 ， 假 设 你 训练 一 个 分 类 器 
来 检测 儿童 可 以 放心 观看 的 视频 ， 那 么 你 可 能 更 青睐 那 种 拦截 了 很 多 
好 视频 REER) ， 但 是 保留 下 来 的 视频 都 是 安全 〈 高 精度 ) 的 分 
Res, MNES re, BEE mE A Be oe BEES EA 
视频 的 分 类 器 (这 种 情况 下 ， 你 甚至 可 能 会 添加 一 个 人 工 流水 线 来 检 
查分 类 器 选 出 来 的 视频 ) 。 反 过 来 说 ， 如 果 你 训练 一 个 分 类 器 通过 图 
像 监控 来 检测 小 偷 ， 你 大 概 可 以 接受 精度 只 有 30%， 只 要 召回 率 能 达到 
99% 〈 当 然 ， 安 保 人 员 会 收 到 一 些 错误 的 警报 ， 但 是 几乎 所 有 的 窃贼 都 
在 劫难 逃 ) 。 


遗憾 的 是 ， 鱼 和 熊 掌 不 可 兼 得 ， 你 不 能 同时 增加 精度 并 减少 召回 率 ， 
反之 亦 然 。 这 称 为 精度 /召回 率 权衡 。 


精度 /各 回 率 权衡 


要 理解 这 个 权衡 过 程 ， 我 们 来 看 看 SGDClassifier 如 何 进行 分 类 决策 。 对 
于 每 个 实例 ， 它 会 基于 决策 函数 计算 出 一 个 分 值 ， 如 果 该 值 大 于 阔 
值 ， 则 将 该 实例 判 为 正 类 ， 和 否则 便 将 其 判 为 负 类 。 图 3-3 显 示 了 从 左边 
最 低 分 到 右边 最 高 分 的 几 个 数字 。 假 设 决策 靖 值 位 于 中 间 箭 头 位 置 
(两 个 5 之 间 ) : 在 靖 值 的 右 侧 可 以 找到 4 个 真正 类 (BANS) ， 一 个 假 
EX (实际 上 是 6) 。 因 此 ， 在 该 阐 值 下 ， 精 度 为 80% (4/5) 。 但 是 在 
6 个 真正 的 5 中 ， 分 类 器 仅 检测 到 了 4 个 ， 所 以 召回 率 为 67% (4/6) 。 现 
在 ， 如 果 提 高 靖 值 (将 其 挪动 到 右边 箭头 的 位 置 ) ， 假 正 类 (数字 6) 
变 成 了 真 负 类 ， 因 此 精度 得 到 提升 (本 例 中 提升 到 100%) ， 但 是 一 个 
真正 类 变 成 一 个 假 负 类 ， 召 回 率 降 低 至 50%。 反 之 ， 降 低 阔 值 则 会 在 增 
加 召回 率 的 同时 降低 精度 。 


精度 ，6/8=75% 4/5=80% — 3/3=100% 
ZAR, 6/6=100% 4/6=67%  3/6=50% 


\ 
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图 3-3: 决策 阔 值 和 精度 /召回 率 权 衡 
Scikit-Learn 不 允许 直接 设置 国 值 ， 但 是 可 以 访问 它 用 于 预测 的 决策 分 
数 。 不 是 调用 分 类 器 的 predict () 方法 ， 而 是 调用 decision_function 

() 方法 ， 这 个 方法 返回 每 个 实例 的 分 数 ， 然 后 就 可 以 根据 这 些 分 
数 ， 使 用 任意 国 值 进行 预测 了 : 

>>> y_scores = sgd_clf.decision_function([some_digit]) 

>>> y_scores 

array([ 161855.74572176]) 

>>> threshold = 0 


>>> y_some_digit_pred = (y_scores > threshold) 


array([ True], dtype=bool) 


SGDClassifier 分 类 恬 使 用 的 病 值 是 0， 所 以 前 面 的 代码 返回 结果 与 
predict () 方法 一 样 (也 就 是 True) 。 我 们 来 试 试 提升 阐 值 : 


>>> threshold = 200000 


>>> y_some_digit_pred = (y_scores > threshold) 


>>> y_some_digit_pred 


array( [False], dtype=bool1) 


这 证 明了 提高 阐 值 确实 可 以 降低 召回 率 。 这 张 图 确实 是 5， 当 阐 值 为 0 
时 Taal 以 检测 到 该 图 ， 但 古 当 病 值 提 高 到 200000 时 ， 束 错过 了 
这 张 图 。 


那么 要 如 何 决 定 使 用 什么 靖 值 呢 ? 首先 ， 使 用 cross_val_predict () BX 
数 获取 训练 集中 所 有 实例 的 分 数 ， 但 是 这 次 需要 它 返 回 的 是 决策 分 数 
而 不 是 预测 结 


y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, 


method="decision_function" ) 


有 了 这 些 分 数 ， 可 以 使 用 precision_recall_curve () 函数 来 计算 所 有 可 
能 的 靖 值 的 精度 和 召回 率 : 


from sklearn.metrics import precision_recall_curve 


precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores) 


最 后 ， 使 用 Matplotlib 绘 制 精度 和 召回 率 相 对 于 阔 值 的 函数 图 ( 见 图 3- 
4) : 


NY 


def plot_precision_recall_vs_threshold(precisions, recalls, thresholds): 


plt.plot(thresholds, precisions[:-1], "b--", label="Precision") 


plt.plot(thresholds, recalls[:-1], "g-", label="Recall") 


plt.xlabel("Threshold") 


plt.legend(loc="upper left") 


plt.ylim([®, 1]) 


plot_precision_recall_vs_threshold(precisions, recalls, thresholds) 


plt. show() 


OC 
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图 3-4: MEMA E Rvs RFR BE 


` 你 可 能 会 感到 好 奇 ， 为 什么 在 图 3-4 中 精度 曲线 比 召 回 率 曲 线 要 崎 
Wik—#6° 原因 在 于 ， 当 你 提高 阔 值 时 ， 精 度 有 时 也 有 可 能 会 下 降 ( 尽 
管 总 体 趋势 是 上 升 的 ) 。 要 理解 原因 ， 可 以 回头 看 图 3-3， 注 意 ， 当 把 
病 值 从 中 间 箭 头 往 右 移动 一 位 数 时 ， 精度 从 4/5 (80%) 下 降 到 3/4 
(75%) 。 男 一 方面 ， 当 阐 值 上 升 时 ， 召 回 率 只 会 下 降 ， 这 就 解释 了 为 
什么 召回 率 的 曲线 看 起 来 很 平滑 。 

现在 ， 束 可 以 通过 轻松 选择 病 值 来 实现 最 佳 的 精度 /召回 率 权 衡 了 。 还 
有 一 种 找到 好 的 精度 /召回 率 权衡 的 方法 是 直接 绘制 精度 和 召回 率 的 函 
数 图 ， 如 图 3-5 所 示 。 
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图 3-5: 精度 vs 召回 率 


从 图 中 可 以 看 到 ， 从 80% 的 召回 率 往 右 ， 精 度 开始 急剧 下 降 。 你 可 能 会 
尽量 在 这 个 陡 降 之 前 选择 一 个 精度 /召回 率 权衡 一 一 比如 召回 率 60%。 
当然 ， 如 何 选 择 取 决 于 你 的 项 目 。 


假设 你 决定 瞄准 90% 的 精度 目标 。 通 过 绘制 的 第 一 张 图 (放大 一 点 ) ， 
得 出 需要 使 用 的 阐 值 大 概 是 70000。 要 进行 预测 (现在 是 在 训练 集 
上 ) ， 除 了 调用 分 类 器 的 predict () 方法 ， 也 可 以 运行 这 段 代码 : 


y_train_pred_90 = (y_scores > 70000) 


我 们 检查 一 下 这 些 预测 结果 的 精度 和 召回 率 : 


>>> precision_score(y_train_5, y_train_pred_90) 


0.8998702983138781 


>>> recall_score(y_train_5, y_train_pred_90) 


0.63991883416343853 


现在 你 有 一 个 90% 精 度 的 分 类 器 了 (或 者 足够 接近 ) ! 如 你 所 见 ， 创 建 
任意 一 个 你 想 要 的 精度 的 分 类 器 是 相当 容易 的 事情 ， R E E 
即 可 ! ZA, MARR AIK, RI, ASHE AGA ! 


全 如 果 有 人 说 : “我 们 需要 99% 的 精度 。” 你 就 应 该 问 : “召回 率 是 多 
少 ? » 


ROCH Zz 
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线 (简称 ROC) 。 它 与 精度 /召回 率 曲 线 非 常 相 似 ， 但 绘制 的 不 是 精度 
和 召回 率 ， 而 是 真正 类 率 (召回 率 的 男 一 名 称 ) 和 假 正 类 率 (FPR) ° 
FPR 古 被 错误 分 为 正 类 的 负 类 实例 比率 。 它 等 于 1 减 去 真 负 类 率 
(TNR) ， 后 者 是 被 正确 分 类 为 负 类 的 负 类 实例 比率 ， 也 称 为 特异 
度 。 因 此 ，ROC 曲 线 绘制 的 是 灵敏 度 和 (1- 特 异 度 ) 的 关系 。 


要 绘制 ROC 曲 线 ， 首 先 需要 使 用 roc_curve () 函数 计算 多 种 阐 值 的 
TPR 和 FPR: 


from sklearn.metrics import roc_curve 


fpr, tpr, thresholds = roc_curve(y_train_5, y_scores) 


然后 ， 使 用 Matplotlib 绘 制 FPR 对 TPR 的 曲线 。 下 面 的 代码 可 以 绘制 出 图 
3-6 的 曲线 : 
def plot_roc_curve(fpr, tpr, label=None): 
plt.plot(fpr, tpr, linewidth=2, label=label) 
plt.plot([0, 1], [0, 1], 'k--') 
plt.axis([0, 1, 0, 1]) 
plt.xlabel('False Positive Rate') 


plt.ylabel('True Positive Rate') 


plot_roc_curve(fpr, tpr) 


plt.show() 


图 3-6: ROC 曲 线 


同样 这 里 再 次 面临 一 个 折 中 权衡 : 召回 率 (TPR) 越 高 ， 分 类 器 产生 的 
REX (FPR) 就 越 多 。 虚 线 表示 纯 随 机 分 类 器 的 ROC 曲 线 ; 一 个 优秀 
的 分 类 器 应 该 离 这 条 线 越 远 越 好 (向 左上 角 ) ° 

有 一 种 比较 分 类 器 的 方法 是 测量 曲线 下 面积 (AUC) 。 完 美的 分 类 器 
的 ROC AUC 等 于 1， 而 纯 随机 分 类 器 的 ROC AUC 等 于 0.5。Scikit-Learn 
提供 计算 ROC AUCH NAL: 


>>> from sklearn.metrics import roc_auc_score 
>>> roc_auc_score(y_train_5, y_scores) 


0.97061072797174941 


全 | 于 RoC 曲线 与 精度 /召回 来 (或 PR) 曲线 非常 相似 ， 因 此 你 可 能 
会 问 如 何 决 定 使 用 哪 种 曲线 。 有 一 个 经 验 法 则 是 ， 当 正 类 非常 少见 或 
者 你 更 关注 假 正 类 而 不 是 假 负 类 时 ， 你 应 该 选择 PR 曲线 ， 反 之 则 是 
ROC 曲 线 。 例 如 ， 看 前 面 的 ROC 曲 线 图 (以 及 ROC AUC 分 数 ) ， 你 可 
能 会 觉得 分 类 器 真 不 错 。 但 这 主要 是 因为 跟 负 类 ( 非 5) 相 比 ， 正 类 
(数字 5) 的 数量 真得 很 少 。 相 比 之 下 ，PR 曲 线 清楚 地 说 明 分 类 器 还 有 
改进 的 空间 (曲线 还 可 以 更 接近 右上 角 ) 。 


训练 一 个 RandomForestClassifier 分 类 侨 ， 并 比较 它 和 SGDClassifier 分 类 
as HJROCHHZZFIROC AUC 分数。 首先， 获取 训练 集中 每 个 实例 的 分 
数 。 但 是 由 于 它 的 工作 方式 不 同 (参见 第 7 章 ) , 
RandomForestClassifier 类 没有 decision function () 方法 ， 相 反 ， 它 有 
的 是 dict_proba () 方法 。Scikit-Learn 的 分 类 器 通常 都 会 有 这 两 种 方法 
的 其 中 一 种 。dict_proba () 方法 会 返回 一 个 数组 ， 其 中 每 行为 一 个 实 
例 ， 每 列 代表 一 个 类 别 ， 意思 是 某 个 给 定 实例 属于 某 个 给 定 类 别 的 概 
率 (例如 ， 这 张 图 片 有 70% 的 可 能 是 数字 5) : 


from sklearn.ensemble import RandomForestClassifier 


forest_clf = RandomForestClassifier (random_state=42) 
y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3, 
method="predict_proba" ) 
但 是 要 绘制 ROC 曲 线 ， 需 要 的 是 分 数值 而 不 是 概率 大 小 。 一 个 简单 的 
解决 方案 是 ， 直接 使 用 正 类 的 概率 作为 分 数值 : 
y_scores_forest = y_probas_forest[:, 1] # score = proba of positive class 


fpr_forest, tpr_forest, thresholds forest = roc_curve(y_train_5,y_scores_forest) 


现在 可 以 绘制 ROC 曲 线 了 “。 绘 制 第 一 条 ROC 曲 线 来 看 看 对 比 结果 ( 见 
图 3-7) : 

plt.plot(fpr, tpr, "b:", label="SGD") 

plot_roc_curve(fpr_forest, tpr_forest, "Random Forest") 

plt.legend(loc="bottom right") 


plt.show() 


图 3-7: ROC 曲 线 对 比 


如 图 3-7 所 示 ，RandomEForestClassifier 的 ROC 曲 线 看 起 来 比 
SGDClassifier 好 很 多 : 它 离 左上 角 更 接近 。 因 此 它 的 ROC AUC 分 数 也 
高 得 多 : 


>>> roc_auc_score(y_train_5, y_scores_forest) 


0.99312433660038291 


ee 回 率 的 分 数 : 98.5% 的 精度 和 82.8% 的 召回 率 ， 也 还 
N E | 


希望 现在 你 已 经 掌握 了 如 何 训练 二 元 分 类 器 ， 如 何 选择 合适 的 指标 利 

用 交叉 验证 来 对 分 类 器 进行 评估 ， 如 何 选 择 满 足 需求 的 精度 /和 召回 率 权 
衡 ， 以 及 如 何 使 用 ROC 曲 线 和 ROC AUC 分 数 来 比较 多 个 模型 。 我 们 再 
来 试 试 对 数字 5 之 外 的 检测 。 
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元 分 类 器 在 两 个 类 别 中 区 分 ， 而 多 类 别 分 类 器 〈 也 称 为 多 项 分 类 
) 可 以 区 分 两 个 以 上 的 类 别 。 


一 些 算法 (如 随机 森林 分 类 器 或 朴素 贝 叶 斯 分 类 器 ) 可 以 直接 处 理 
多 个 类 别 。 也 有 一 些 严 格 的 二 元 分 类 器 如 文 持 向 量 机 分 类 器 或 线性 
o ~ A ZIPRE DAL ER AILS ot at Ree RS RA) 
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例如 ， 要 创建 一 个 系统 将 数字 图 片 分 为 10 类 (从 0 到 9) ， 一 种 方法 是 
训练 10 个 二 元 分 类 器 ， 每 个 数字 一 个 (0- 检 测 器 、1- 检 测 右 、2- 检 测 
as, see, MER) 。 然 后 ， 当 你 需要 对 一 张 图 片 进行 检测 分 类 
上 时， 获取 每 个 分 类 器 的 决策 分 数 ， 哪 个 分 类 器 给 分 最 高 ， 就 将 其 分 为 
哪个 类 。 这 称 为 一 对 多 (OvA) 策略 (也 称 为 one-versus-the-rest) ° 


另 一 种 方法 是 ， 为 每 一 对 数字 训练 一 个 二 元 分 类 器 : 一 个 用 于 区 分 0 和 
1， 一 个 区 分 0 和 2， 一 个 区 分 1 和 2， 以 此 类 推 。 这 称 为 一 对 一 (OvO) 

策略 。 如 果 存 在 N 个 类 别 ， 那 么 这 需要 训练 Nx (N-1) :2 个 分 类 器 。 对 
于 MNIST 问 题 ， 这 意味 着 要 训练 45 个 二 元 分 类 器 ! 当 需 要 对 一 张 图 片 


a 


AN 


D} 


进行 分 类 时 ， 你 需要 运行 45 个 分 类 器 最 后 看 哪个 
类 别 获 胜 最 多 。OvO 的 主要 优点 在 于 ， 每 个 分 类 器 只 需要 用 到 部 分 训 
练 集 对 其 必须 区 分 的 两 个 类 别 进 行 训练。 


有 些 算法 (例如 支持 向 量 机 分 类 器 ) 在 数据 规模 扩大 时 表现 糟糕 ， 

此 对 于 这 类 算法 ， OvO S EIENEN, 由 于 在 较 小 训 A 
训练 多 个 分 类 器 比 在 大 型 数据 集 上 训练 少数 分 类 器 要 快 得 多 。 但 是 对 
大 多 数 二 元 分 类 器 来 说 ，OvA 策 略 还 是 更 好 的 选择 。 

Scikit-Learn 可 以 检测 到 你 答 试 使 用 二 元 分 类 算法 进行 多 类 别 分 类 任 


务 ， 它 会 自动 运行 OvA (SVM 分 类 器 除外 ， 它 会 使 用 OvO) 。 我 们 用 
SGDClassifieriztizt: 


>>> sgd_clf.fit(X_train, y_train) # y_train, not y_train_5 
>>> sgd_clf.predict([some_digit]) 


array([ 5.]) 


非常 容易 ! 这 段 代码 使 用 原始 目标 类 别 0 到 9 (y_train) 在 训练 集 上 对 
SGDClassifier 进 行 训练 ， 而 不 是 以 55” 和 “剩余 ”作为 目标 类 别 
(y_train_5) 。 然 后 做 出 预测 (在 本 例 中 预测 正确 ) 。 而 在 内 部 ， 
Scikit-Learn 实 际 上 训练 了 10 个 二 元 分 类 絮 ， 获 得 它们 对 图 片 的 决策 分 
数 ， 然 后 选择 了 分 数 最 高 的 类 别 。 


想 要 知道 是 不 是 这 样 ， 可 以 调用 decision_function () 方法 。 它 会 返回 
10 个 分 数 ， 每 个 类 别 1 个 ， 而 不 再 是 每 个 实例 返回 1 个 分 数 : 


>>> some_digit_scores = sgd_clf.decision_function([some_digit]) 


>>> some_digit_scores 


array([[-311402.62954431, -363517.28355739, -446449.5306454 , 


-183226.61023518, -414337.15339485, 161855.74572176, 


-452576.39616343, -471957.14962573, -518542.33997148, 


-536774.63961222]]) 


最 高 分 确实 是 对 应 数字 5 这 个 类 别 : 


>>> np.argmax(some_digit_scores) 


>>> sgd_clf.classes_ 


array([ ©., 1., 2., 3., 4., 5., 6., 7., 8., 9.]) 


>>> sgd_clf.classes[5] 


从、 当 训 练 分 类 妖 时 ， 目 标 类 别 的 列表 会 存储 在 classes_ 这 个 属性 中 ， 
按 值 的 大 小 排序 。 在 本 例 里 ，classes 数组 中 每 个 类 别 的 索引 正好 对 应 
其 类 别 本 身 〈 例 如 ， 索 引 上 第 5 个 类 别 正 好 是 数字 5 这 个 类 别 ) ， 但 是 
一 般 来 说 ， 不 会 这 人 么 恰巧 。 

如 果 想 要 强制 Scikit-Learn 使 用 一 对 一 或 者 一 对 多 策略 ， 可 以 使 用 
OneVsOne Classifier 或 OneVsRestClassifier 类 。 只 需要 创建 一 个 实例 ， 
然后 将 二 元 分 类 姨 传 给 其 构造 画 数 。 例 如 ， 下 面 这 段 代码 使 用 OvO 筑 
略 ， 基 于 SGDClassifier 创 建 了 一 个 多 类 别 分 类 器 : 


>>> from sklearn.multiclass import OneVsOneClassifier 


>>> ovo_clf = OneVsOneClassifier(SGDClassifier(random_state=42) ) 


>>> ovo_clf.fit(X_train, y_train) 
>>> ovo_clf.predict([some_digit]) 
array([ 5.]) 

>>> len(ovo_clf.estimators_) 


45 
Vl|ZkRandomForestClassifier |] ## fa] =: 


>>> forest_clf.fit(X_train, y_train) 

>>> forest_clf.predict([some_digit] ) 

array([ 5.]) 
这 次 Scikit-Learn 不 必 运 行 OvA 或 者 OvO 了， 因为 随机 森林 分 类 器 直接 
束 可 以 将 实例 分 为 多 个 类 别 。 调 用 predict_proba O 可 以 获得 分 类 器 将 
每 个 实例 分 类 为 每 个 类 别 的 概率 列表 : 

>>> forest_clf.predict_proba([some_digit] ) 

array([[ 0.1, ©. , ©. , 0.1, ©. , 0.8, ©., ©., ©. , ©. Jj) 
可 以 看 出 分 类 器 对 其 预测 相当 有 信心 : 数组 中 第 5 个 指数 0.8 意 味 着 该 模 
型 估计 图 片 代 表 数 字 5 的 概率 为 80%。 它 也 认为 图 片 有 可 能 是 0 或 者 3 

( 均 为 10% 的 概率 ) 。 


这 时 ， 你 当然 想 要 评估 这 些 分 类 器 。 跟 之 前 一 样 ， 使 用 交叉 验证 。 我 
们 来 试 试 使 用 cross_val_score () 范 数 评估 一 下 SGDClassifier 的 准确 
率 : 


>>> cross_val_score(sgd_clf, X_train, y_train, cv=3, scoring="accuracy" ) 

array([ ©.84063187, ©.84899245, 0.86652998]) 
在 所 有 的 测试 折 营 上 都 超过 了 84%。 如 果 是 一 个 纯 随机 分 类 器 ， 准 确 率 
大 概 症 10%， 所 以 这 个 结果 不 十 太 糟 ， 但 是 依然 有 提升 的 空间 。 例 如 ， 
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将 输入 进行 简单 缩放 〈 如 第 2 章 所 述 ) 可 以 将 准确 率 提 到 90% 以 上 : 

>>> from sklearn.preprocessing import StandardScaler 

>>> scaler = StandardScaler() 

>>> X_train_scaled = scaler.fit_transform(X_train.astype(np.float64) ) 


>>> cross_val_score(sgd_clf, X_train_scaled, y_train, cv=3, scoring="accuracy") 


array([ ©.91011798, 0.90874544, 0.906636 ]) 


错误 分 析 


当然 ， 如 来 这 是 一 个 真正 的 项 目 ， 你 将 遵循 机 器 学 习 项 目 清单 中 的 步 
又 ( 见 附录 B) : 探索 数据 准备 的 选项 ， 演 试 多 个 模型 ， 列 出 最 佳 模型 
并 用 GridSearchCV 对 其 超 参 数 进行 微调 ， 尺 可 能 目 动 化 ， 等 等 。 正 如 
你 在 之 前 的 章节 里 笑 试 的 那些 。 在 这 里 ， 假 设 你 已 经 找到 了 一 个 有 漠 
力 的 模型 ， 现 在 你 硕 望 找到 一 些 方法 对 其 进一步 改进 。 方 法 之 一 加 是 
分 析 其 错误 类 型 。 


首先 ， 看 看 混 消 和 矩阵。 就 像 之 前 做 的 ， 使 用 cross_val_predict () 函数 
进行 预测 ， 然 后 调用 confusion_matrix () EAR: 


>>> y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3) 


>>> conf_mx = confusion_matrix(y_train, y_train_pred) 


>>> conf_mx 


array([[5725, 3, 24, 9, 10, 49, 50, 10, 


[ 2, 6493, 43, 25, 7, 40, 5, 10, 


[ 51, 


[ 47, 


[ 19, 


[ 73, 


[ 29, 


[ 25, 


[ 52, 


[ 43, 


41, 5321, 104, 89, 26, 87, 


46, 141, 5342, 1, 231, 40, 


39, 4], 


109, 8], 


60, 166, 13], 


50, 141, 92], 


29, 41, 10, 5366, 9, 56, 37, 86, 189], 


45, 36, 193, 64, 4582, 111, 30, 193, 94], 


34, 44, 2, 42, 85, 5627, 10, 45, 0], 


24, 74, 32, 54, 12, 6, 5787, 15, 236], 


161, 73, 156, 10, 163, 61, 


25, 5027, 123], 


35, 26, 92, 178, 28, 2, 223, 82, 5240]]) 


数字 有 点 多 ， 使 用 Matplotlib 的 matshow () 画 数 来 查看 混 消 矩阵 的 图 像 


表示 ， 通 利 更 加 方便 : 


plt.matshow(conf_mx, cmap=plt.cm.gray) 


plt.show() 


混 清 矩阵 看 起 来 很 不 错 ， 因 为 大 多 数 图 厂 都 在 主 对 角 线 上 ， 这 说 明 它 
们 被 正确 分 类 。 数 字 5 看 起 来 比 其 他 数字 稍稍 上 暗 一 些 ， 这 可 能 意味 着 数 
据 集 中 数字 5 的 图 片 较 少 ， 也 可 能 是 分 类 器 在 数字 5 上 的 执行 效 采 不 如 
在 其 他 数 子 上 好 。 实 际 上 ， 你 可 能 会 验证 这 两 首部 属实 。 


让 我 们 把 焦点 放 在 错误 上 。 首 和 完 ， 你 需要 将 混淆 矩阵 中 的 每 个 值 除 以 
相应 类 别 中 的 图 片 数 量 ， 这 样 你 比较 的 就 是 错误 率 而 不 是 错误 的 绝对 
值 〈 后 者 对 图 片 数量 较 多 的 类 别 不 公平 ) : 


row_sums = conf_mx.sum(axis=1, keepdims=True) 


norm_conf_mx = conf_mx / row_sums 


用 0 填充 对 角 线 ， 只 保留 错误 ， 重 新 绘制 结果 : 


np.fil1l_diagonal(norm_conf_mx, 0) 


plt.matshow(norm_conf_mx, cmap=plt.cm.gray) 


plt.show() 


现在 可 以 清晰 地 看 到 分 类 器 产生 的 错误 种 类 了 。 记 住 ， 每 行 代表 实际 

类 别 ， 而 每 列表 示 预 测 类 别 。 第 8 列 和 人 第 9 列 整体 看 起 来 非 单 完 ， 说 明 

有 许多 图 片 被 铺 误 地 分 类 为 数字 8 或 数字 9 了 。 同 样 ， 类 别 8 和 类 别 9 的 

行 看 起 来 也 侦 完 ， 说 明 数 字 8 和 效 字 9 经 币 会 跟 其 他 数字 混 消 。 相 反 ， 

一 些 行 很 暗 ， 比 如 行 1， 这 意味 着 大 多 数 数字 1 都 被 正确 地 分 类 (有 一 

些 与 数字 8 弄 混 ， 但 仅 此 而 已 。 注 意 ， 错 误 不 是 完全 对 称 的， 比如 ， 
多 o 


分 析 混 清和 窍 阵 通 常 可 以 帮助 你 深入 了 解 如 何 改进 分 类 器 。 通 过 上 面 那 
张 图 来 看 ， 你 的 精力 可 以 花 在 改进 数字 8 和 数字 9 的 分 类 ， 以 及 修正 数 
字 3 和 数字 5 的 混 消 上 。 例 如 ， 可 以 试 着 收集 更 多 这 些 数字 的 训练 数 
据 。 或 者 ， 也 可 以 开发 一 些 新 特征 来 改进 分 类 器 一 一 举 个 例子 ， 写 一 
个 算法 来 计算 闭环 的 数量 〈 例 如 ， 数 字 8 有 两 个 ， 数 字 6 有 一 个 ， 数 字 5 
没有 ) 。 再 或 者 ， 还 可 以 对 图 片 进行 预 处 理 (例如 ， 使 用 Scikit- 
Image、Pillow 或 OpenCV) 让 某 些 模式 更 为 突出 ， 比 如 闭环 之 类 的 。 


Te SAR A Aa Rete tees: 它 在 做 什么 ? 它 为 什么 失 
a 但 这 通常 更 加 困难 和 耗 时 。 例 如 ， 我 们 来 看 看 数 子 3 和 数 子 5 的 例 


cl a, cl_b = 3, 5 


X_aa = X_train[(y_train == cl_a) & (y_train_pred == cl_a)] 


X_ab = X_train[(y_train == cl_a) & (y_train_pred == cl_b)] 


X_ba = X_train[(y_train == cl_b) & (y_train_pred == cl_a)] 


X_bb = X_train[(y_train == cl_b) & (y_train_pred == cl_b)] 


plt.figure(figsize=(8,8) ) 


plt.subplot(221); plot_digits(X_aa[:25], images_per_row=5) 


plt.subplot(222); plot_digits(X_ab[:25], images_per_row=5) 


plt.subplot(223); plot_digits(X_ba[:25], images_per_row=5) 


plt.subplot(224); plot_digits(X_bb[:25], images_per_row=5) 


plt.show() 
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左 侧 的 两 个 5x5 和 矩阵 显示 了 说 分 类 为 数字 3 的 图 片 ， 右 侧 的 两 个 5x5 甜 阵 
显示 了 被 分 类 为 数字 5 的 图 片 。 分 类 器 弄 错 的 数 子 〈 即 左下 方 和 右上 方 
的 矩阵 里， 确实 有 一 些 写 得 非常 糟 粽 ， 即 便 是 人 类 也 很 难 做 出 区 分 
(例如 ， 第 8 行 第 1 列 的 数字 5 看 起 来 真 的 很 像 数 字 3) 。 然 而 ， 对 我 们 
来 况 ， 大 多 数 错误 分 类 的 岁 片 看 起 来 还 是 非常 明显 的 错误 ， 我 们 很 难 
理解 分 类 器 为 什么 会 弄 错 。I 册 原因 在 于 ， 我 们 使 用 的 简单 的 
SGDClassifier 模 型 是 一 个 线性 模型 。 它 所 做 的 吏 是 为 每 个 像素 分 配 一 个 
各 个 类 别 的 权重 ， 当 它 看 到 新 的 图 像 时 ， 将 加 权 后 的 像素 强度 汇总 ， 
从 而 得 到 一 个 分 数 进行 分 类 。 而 数字 3 和 数字 5 只 在 一 部 分 像素 位 上 有 
区 别 ， 所 以 分 类 右 很 容易 将 其 弄 混 。 


数字 3 和 数 子 5 之 则 的 主要 区 别 是 在 于 连接 项 线 和 下 方 弧 线 的 中 间 那 段 
小 线条 的 位 置 。 如 来 你 写 的 数 子 3 将 连接 点 略 往 左 移 ， 分 类 右 束 可 能 将 
其 分 类 为 数 子 5， 反 之 亦 然 。 换 言 之 ， 这 个 分 类 右 对 图 像 移 位 和 旋转 非 
常 敏 感 。 因 此 ， 减 少数 字 3 和 数字 5 混 淆 的 方法 之 一 ， 惑 是 对 图 片 进行 
n a Oe ee a ee 
其 他 错误 。 


[1] 但 是 记 住 ， 我 们 的 大 脑 是 一 个 非常 神奇 的 模式 识别 系统 ， 在 信息 传 
达到 我 们 的 意识 之 前 ， 视 觉 系 统 会 对 其 进行 大 量 的 复杂 的 预 处 理 ， 所 
以 任何 看 起 来 很 商 单 的 事情 并 不 意味 痢 它 真 的 简单 。 


多 标 例 分 类 


到 目前 为 止 ， 每 个 实例 部 只 会 被 分 在 一 个 类 别 里 。 而 在 某 些 情况 下 ， 
你 希望 分 类 紫 为 每 个 实例 产 出 多 个 类 别 。 例 如 ， 人 脸 识别 的 分 类 器 : 
如 琳 在 一 张 照 片 里 识别 出 多 个 人 怎么 办 ? 当然 ， 应 该 为 识别 出 来 的 每 
个 人 都 附 上 一 个 标签 。 假 设 分 类 器 经 过 训练 ， 已 经 可 以 识别 出 三 张 脸 
一 一 爱丽 丝 、 鲍 艺 和 查理 ， 那 么 当 看 到 一 张 爱 丽 丝 和 查理 的 照片 时 ， 
它 应 该 输出 [L，0，1] Re em, Reto, EA”) 这 种 
输出 多 个 二 元 标签 的 分 类 系统 称 为 多 标签 分 类 系统 。 


0 这 里 不 讨论 面部 识别 ， 让 我 们 来 看 一 个 更 为 稍 单 的 例 


from sklearn.neighbors import KNeighborsClassifier 


y_train_large = (y_train >= 7) 
y_train_odd = (y_train % 2 == 1) 


y_multilabel = np.c_[y_train_large, y_train_odd] 


knn_clf = KNeighborsClassifier() 
knn_clf.fit(X_train, y_multilabel) 
这 上 段 代码 会 创建 一 个 y_multilabel 数 组 ， 其 中 包含 两 个 数字 图 片 的 目标 


标签 ， 第 一 个 表示 数字 是 否 是 大 数 (7、8、9) ,第 二 个 表示 是 否 为 奇 
数 。 下 一 行 创建 一 个 KNeighborsClassifier 实 例 ( 它 支 持 多 标签 分 类 ， 不 


EAN Rae HF) ， 然 后 使 用 多 个 目标 数组 对 它 进 行 训 练 。 现 
在 用 它 做 一 个 预测 ， 注 意 它 输 出 的 两 个 标签 : 


>>> knn_clf.predict([some_digit]) 


array([[False, True]], dtype=bool) 


结果 是 正确 的 ! 数字 5 确实 不 大 (False) ， 为 奇数 (True) 


评估 多 标签 分 类 器 的 方法 很 多 ， 如 何 选 择 正确 的 度量 指标 取决 于 你 的 
项 目 。 比 如 方法 之 一 是 测量 每 个 标签 的 F | 分数 (或 者 是 之 前 讨论 过 的 
任何 其 他 二 元 分 类 器 指标 ) ， 然 后 简单 地 平均 。 下 面 这 段 代码 计算 所 
有 标签 的 平均 F 分数 


>>> y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_train, cv=3) 


>>> fi_score(y_train, y_train_knn_pred, average="macro") 


0.96845540180280221 


这 里 假设 了 所 有 的 标签 都 同等 重要 ， 但 实际 可 能 不 是 这 样 。 特 别 是 ， 
如 果 训 练 的 照片 里 爱丽 丝 比 鲍 对 和 查理 要 多 很 多 ， 你 可 能 想 给 区 分 爱 
丽 丝 的 分 类 器 更 高 的 权重 。 一 个 简单 的 办 法 是 给 每 个 标签 设置 一 个 等 
于 其 自身 支持 的 权重 (也 就 是 具有 该 目标 标签 的 实例 的 数量 ) 。 只 需 
要 在 上 面 的 代码 中 设置 average="weighted" 即 可 。 IH 


[1]Scikit-Leam 还 提供 了 一 些 其 他 计算 平均 的 方法 ， 以 及 其 他 的 多 标签 
分 类 絮 指 标 ， 相 关 评 细 信 息 请 参阅 文档 。 


多 输出 分 类 


我 们 即将 讨论 的 最 后 一 种 分 类 任务 叫 作 多 输出 -多 类 别 分 类 (或 简单 地 
称 为 多 输出 分 类 ) 。 简 单 来 说 ， 它 是 多 标签 分 类 的 泛 化 ， 其 标签 也 可 


以 是 多 种 类 别 的 《比如 它 可 以 有 两 个 以 上 可 能 的 值 ) 。 


为 了 说 明 这 一 点 ， 构 建 一 个 系统 去 除 图 片 中 的 噪声 。 给 它 输入 一 张 有 
噪声 的 图 片 ， 它 将 (希望 输出 一 张 干净 的 数字 图 片 ， 跟 其 他 MNIST 
图 片 一 样 ， 以 像素 强度 的 一 个 数组 作为 呈现 方式 。 请 注意 ， 这 个 分 类 
器 的 输出 是 多 个 标签 〈 一 个 像素 点 一 个 标签 ) ， 每 个 标签 可 以 有 多 个 
E (像素 强度 范围 为 0 到 225) 。 所 以 这 是 个 多 输出 分 类 器 系统 的 例 


ie) 


全 | 分 类 和 回归 之 间 的 界限 有 时 很 模糊 ， 比 如 这 个 例子 。 可 以 说 ， 预 测 
像素 强度 更 像 古 回归 任务 而 不 是 分 类 。 而 多 输出 系统 也 不 仅仅 限于 分 
o BTML SRRA TSR UATE 2 TE 同时 包括 类 别 标 
签 和 值 标签 。 


还 先 从 创建 训练 集 和 测试 集 开始 ， 使 用 NumpPy 的 randint O 函数 为 
MNIST 图 片 的 像素 强度 增加 噪声 。 目 标 是 将 图 片 还 原 为 原始 图 片 : 


noise = rnd.randint(9，100，(Jlen(X_train)，784) ) 
noise = rnd.randint(0, 100, (len(X_ test), 784)) 
Xx _ train mod = X_train + noise 

Xx test mod = X_test + noise 

y_train_mod = X_train 

y_test_mod = X_test 


警 一 眼 测试 集中 的 图 像 QE, BATISTA, (RPE SE 
WARE) : 


Alle ae RAR, Ale TSH Bl br ce MEEKS 
Ran, TAVOXSIKA: 


knn_clf.fit(X_train_mod, y_train_mod) 


clean_digit = knn_clf.predict([X_test_mod[some_index] ] ) 


AERA A Pree T ° ah Ra ZENZA ° A UE Ke A 
何 为 分 类 任务 选择 好 的 指标 ， 如 何 选择 适当 的 精度 /召回 率 权衡 ， 如 何 


plot_digit(clean_digit) 


练习 


1. 为 MNIST 数 据 集 构建 一 个 分 类 器 ， 并 在 测试 集 上 达成 超过 97% 的 精 

度 。 提 示 : KNeighborsClassifier 对 这 个 任务 非常 有 效 ， 你 只 需要 找到 合 
适 的 超 参数 值 即 可 ( 试 试 对 weights 和 n_neighbors 这 两 个 超 参 数 进 行 网 

格 搜索 ) 。 


2. 写 一 个 可 以 将 MNIST 图 片 癌 任意 方向 (上 、 下 、 左 、 右 ) 移动 一 个 像 
素 的 功能 。 出 然后， 对 训练 集中 的 每 张 图 片 ， 创 建 四 个 位 移 后 的 副本 
(每 个 方向 一 个 ) ， 添 加 到 训练 集 。 最 后 ， 在 这 个 扩展 过 的 训练 集 上 
训练 模型 ， 衡 量 其 在 测试 集 上 的 精度 。 你 应 该 能 注意 到 ， 模 型 的 表现 
a ee 


3.Kaggle (https://www.kagegle.com/c/titanic) 上 非常 棒 的 起 点 : 处 理 泰 
坦 尼克 (Titanic) 数据 集 。 


4. 创 建 一 个 垃圾 邮件 分 类 器 (更 具 挑 战 性 的 练习 ) : 


-M Apache SpamAssassin 的 公共 数据 集 ( 


HBF ° 
解压 数据 集 并 熟悉 数据 格式 。 
.将 数据 集 分 为 训练 集 和 测试 集 。 


` 写 一 个 数据 准备 的 流水 线 将 每 封 邮件 转换 为 特征 癌 量 。 你 的 流水 线 应 
将 电子 邮件 转换 为 一 个 “指示 出 所 有 可 能 的 词 存在 与 否 "的 〈 稀 忠 ) 向 
量 。 比 如 ， 如 琳 所 有 的 邮件 都 只 包含 四 个 词 “ 你 好 ”怎样 “是 “你 ”"， 那 
么 邮件 “你 好 ， 你 ， 你 好 ， 你 好 ， 你 ”会 被 转换 成 为 器 量 [1，0，0，11] 

(意思 是 “你 好 ”存在 , “怎样 ?不 存在 ,，“ 是 "不 存在 , “你 ”存在 ) ， 如 果 
你 和 希望 算 上 每 个 词 出 现 的 次 数 ， 那 么 这 个 同 量 吏 是 3，0，0，2]。 


在 流水 线 上 添加 超 参 数 ， 来 控制 是 否 刊 离 电 子 邮 件 标 题 ， 和 是否 将 每 才 

邮件 转换 为 小 写 ， 是 否 删 除 标 扣 符号， 是 否 将 “URLs” 疹 换 成 “URL”， 

是 否 将 所 有 小 写 number 替 换 为 "NUMBER”， 甚 至 是 否 执行 词 干 提取 
( 即 去 掉 单 词 后 级 ， 有 可 用 的 Python 库 可 以 实现 该 操作 ) 。 


最 后 ， 多 试 几 个 分 类 器 ， 看 看 是 否 能 创建 出 一 个 高 召回 率 且 高 精度 的 
垃圾 邮件 分 类 天 。 


以 上 练习 的 解决 方案 可 以 在 Jupyter 笔 记 本 上 获得 ， 链 接地 址 为 : 


https://github.com/ageron/handson-ml ° 


[1]_. 可 以 使 用 scipy.ndimage.interpolation 模 块 中 的 shift () 函数 。 例 如 ， 
E E 
JITRA ° 


BAE URRE 


到 目前 为 止 ， 我 们 已 经 探讨 了 不 同 机 融 学 习 的 模型 ， 但 是 它们 各 目的 
训练 算法 在 很 大 程度 上 还 是 一 个 黑匣子 。 回 顾 前 儿 章 里 的 部 分 案例 ， 
你 大 概 感到 非常 惊讶 ， 在 对 系统 内 部 一 无 所 知 的 情况 上 下， 居然 已 经 实 
现 了 这 么 多 : 优化 了 一 个 回归 系统 ， 改 进 了 一 个 数字 图 片 分 类 器 ， 从 
零 开 始 构建 了 一 个 垃圾 邮件 分 类 器 一 一 所 有 这 些 ， 你 都 不 知道 它们 实 
A 
细节 。 


但 是 ， 能 很 好 地 理解 系统 如 何 工作 也 是 非常 有 帮助 的 。 针 对 你 的 任 
务 ， 它 有 助 于 快速 定位 到 合适 的 模型 、 正 确 的 训练 算法 ， 以 及 一 套 适 
当 的 超 参 数 。 不 仅 如 此 ， 后 期 还 能 让 你 更 高 效 地 执行 错误 调试 和 错误 
分 析 。 最 后 还 要 强调 一 点 ， 本 章 探讨 的 大 部 分 主题 对 于 理解 、 构 建 和 
训练 神经 网 络 (本 书 第 二 部 分 ) 是 至 关 重 要 的 。 


本 章 我 们 将 从 最 简单 的 模型 之 一 一 一 线性 回归 模型 ， 开 始 介绍 两 种 非 
常 不 同 的 训练 模型 的 方法 : 


通过 “ 财 式 ”方程 一 一 直接 计算 出 最 适合 训练 集 的 模型 参数 (也 就 是 使 
训练 集 上 的 成 本 函数 最 小 化 的 模型 参数 ) 。 


-使 用 迷 代 优化 的 方法 ， 即 梯度 下 降 (GD) ， 逐 渐 调整 模型 参数 直至 训 
练 集 上 的 成 本 函数 调 至 最 低 ， 最 终 趋 同 于 第 一 种 方法 计算 出 来 的 模型 
参数 。 我 们 还 会 研究 儿 个 梯度 下 降 的 变 体 ， 包 括 批量 梯度 下 降 、 小 批 
量 梯度 下 降 以 及 随机 梯度 下 降 。 等 我 们 进入 到 第 二 部 分 神经 网 络 的 学 
习 时 ， 会 频繁 地 使 用 这 几 个 变 体 。 


接着 我 们 将 会 进入 多 项 式 回归 的 讨论 ， 这 是 一 个 更 为 复杂 的 模型 ， 更 
适合 非 线性 数据 集 。 由 于 该 模型 的 参数 比 线性 模型 更 多 ， 因 此 更 容易 
造成 对 训练 数据 过 度 拟 合 ， 我 们 将 使 用 学 习 曲 线 来 分 辨 这 种 情况 是 否 
发 生 。 然 后 ， 再 介绍 几 种 正则 化 技巧 ， 降 低 过 度 拟 合 训 练 数据 的 风 


险 。 


最 后 ， 我 们 将 学 习 两 种 经 常用 于 分 类 任务 的 模型 : Logistic 回 归 和 
Softmax 回 归 。 


入、 本 音 将 会 山 现 不 少数 学 公式 ， 需 要 用 到 线性 代数 和 微 积分 的 一 些 
基本 概念 。 要 理解 这 些 方 程式 ， 你 需要 知道 什么 是 疝 量 和 和 矩阵， 如 何 
RAEM, MAERT, AEREE, AEE O MR 
你 不 熟悉 这 些 概念 ， 请 先 通过 在 线 补 充 材料 中 的 Jupyter 笔 记 本 ， 进 行 
线性 代数 和 微 积分 的 入 门 学 习 。 对 那些 真 的 极度 讨厌 数学 的 人 ， 你 还 
古 需 要 学 习 这 一 草 ， 但 是 可 以 跳 过 那些 数学 公式 ， 希 望 文字 足以 让 你 
了 解 大 多 数 的 概念 。 


线性 回归 


在 第 1 草 中 ， 我 们 学 过 一 个 简单 的 生活 满意 度 的 回归 模型 : 


life_satisfaction = 0+1xGDP_per_capita ° 


这 个 模型 就 是 输入 特征 GDP_per_capita 的 线性 函数 ，0 和 1 是 模型 的 参 
aN o 


更 为 概括 地 说 ， 线 性 模型 束 是 对 输入 特征 加 权 求 和 ， 再 加 上 一 个 我 们 
称 为 偏 置 项 (也 称 为 截 距 项 ) 的 常数 ， 以 此 进行 预测 ， 如 公式 4-1 所 
ZN ° 
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公式 4-1: 线性 回归 模型 预测 


Y =Q +O% +Ox to + OK 


n 


JD RWIE 


n 


是 特征 的 数量 

Xi 是 第 个 符 征 值 

O 是 第 j 个 模型 参数 (包括 偏 置 项 0 以 及 特征 权重 81 ，9> ，.…，6n) 
这 可 以 用 更 为 们 涪 的 向 量化 形式 表达 ， 如 公式 4-2 所 示 。 

公式 4-2: 线性 回归 模型 预测 (向 量化 ) 


y =h,(X) =0°*X 


CERENA, Lai SHO 0 以 及 特征 权重 9 1 到 90， 


.0 是 6 的 转 置 向 量 (为 行 向 量 ， 而 不 再 是 列 向 量 ) 

x 是 实例 的 特征 向 量 ， 包 括 从 x 0 到 x,，xo 永 远 为 1 

:0 1:x 是 9 1 和 x 的 点 积 

:hg 是 使 用 模型 参数 9 的 假设 函数 

我 们 该 怎样 训练 线性 回归 模型 呢 ? 回想 一 下 ， 训 练 模型 就 是 设置 模型 
参数 直到 模型 最 适应 训练 集 的 过 程 。 要 达到 这 个 目的 ， 我 们 首先 需要 
知道 怎么 衡量 模型 对 训练 数据 的 拟 合 程度 是 好 还 是 差 。 在 第 2 章 中 ， 我 
们 了 解 到 回归 模型 最 常见 的 性 能 指标 是 均 方 根 误差 (RMSE) (公式 2- 
1) 。 因 此 ， 在 训练 线性 回归 模型 时 ， 你 需要 找到 最 小 化 RMSE 的 6 值 。 
在 实践 中 ， 将 均 方 误差 (MSE) 最 小 化 比 最 小 化 RMSE 更 为 简单 ， 二 者 
效果 相同 (因为 使 函数 最 小 化 的 值 ， 同 样 也 使 其 平方 根 最 小 ) 。 H 
在 训练 集 X 上 ， 使 用 公式 4-3 计 算 线 性 回归 的 MSE，h 4 为 假设 函数 。 


公式 4-3: 线性 回归 模型 的 MSE 成 本 函数 


| m ; 
AY (gt ey? -yy 
M i=] 


这 些 符号 大 多 数 在 第 2 章 中 提 到 过 唯一 的 区 别 是 h 换 成 了 he， 以 便 清楚 
地 表明 模型 被 向 量 参 09 数 化 。 为 了 简化 符号 ， 我 们 将 MSE (X, hy) E 
接 写 作 MSE (0) 。 

标准 方程 


为 了 得 到 使 成 本 函数 最 小 的 9 值 ， 有 一 个 闭 式 解 方法 
接 得 出 结果 的 数学 方程 ， 即 标准 方程 (公式 4-4) 。 [9 


公式 4-4: 标准 方程 


ô =(X .X) .X -y 


MSE(X, h,) = 


tme- TE 


.6 是 使 成 本 画 数 最 小 的 9 值 。 
.是 包含 y O 到 y ™ 的 目标 值 向 量 。 


我 们 生成 一 些 线性 数据 来 测试 这 个 公式 〈 见 图 4-1) : 


import numpy as np 


X = 2 * np.random.rand(100, 1) 


y=4+ 3 * X+ np.random.randn(100, 1) 


现在 我 们 使 用 标准 方程 来 计算 E 使 用 NumPy 的 线性 代数 模块 
(np.linalg) 中 的 inv O 函数 来 对 和 矩阵 求 滥 ， 并 用 dot O DIRAE 


阵 的 内 积 : 


X_b = np.c_[np.ones((100, 1)), X] # add x0 = 1 to each instance 


theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y) 


0 
0.0 0.5 1.0 15 2.0 


图 4-1: 随机 生成 的 线性 数据 集 


我 们 实际 用 来 生成 数据 的 函数 是 y=4+3xo+ 高 斯 噪声 。 来 看 看 公式 的 结 
R: 


>>> theta_best 
array([[ 4.21509616], 
[ 2.77011339]]) 


我 们 期 竺 的 是 6u =4, 0, =3 得 到 的 是 6 =3.865, 6, =3.139。 非 常 接 
近 ， 噪 声 的 存在 使 其 不 可 能 完全 还 原 为 原本 的 函数 。 


现在 可 以 用 6 做 出 预测 ; 


>>> X_new = np.array([[0], [2]]) 

>>> X_new_b = np.c_[np.ones((2, 1)), X_new] # add x0 = 1 to each instance 
>>> y_predict = X_new_b.dot(theta_best) 

>>> y_predict 

array([[ 4.21509616], 


[ 9.75532293]]) 
绘制 模型 的 预测 结果 〈 见 图 4-2) 


plt.plot(X_new, y_predict, "r-") 
plt.plot(Xx, y, "b.") 
plt.axis([0, 2, 0, 15]) 


plt.show() 


Scikit-Learn 的 等 效 代码 如 下 所 示 : |! 


一 预测 结果 


0.0 0.5 1.0 13 2.0 
Xl 


图 4-2: 线性 回归 模型 预测 


>>> from sklearn.linear_model import LinearRegression 


>>> lin_reg = LinearRegression() 


>>> lin_reg.fit(X, y) 


>>> lin_reg.intercept_, lin_reg.coef_ 


(array([ 4.21509616]), array([[ 2.77011339]])) 


>>> lin_reg.predict(X_new) 


array([[ 4.21509616], 


[ 9.75532293]]) 


计算 复杂 上 度 


标准 方程 求 逆 的 矩阵 XITI.X， 是 一 个 nxn 和 矩阵 (n 是 特征 数量 ) 。 对 这 种 
和 矩阵 求 逆 的 计算 复杂 度 通 常 为 O (n*4) 到 O (n3) 之 间 (取决 于 计算 
实现 ) 。 换 句 话说 ， 如 果 将 特征 数量 翻 倍 ， 那 么 计算 时 间 将 乘 以 大 约 2 
24 =5.3 倍 到 23 =8 售 之 间 。 


Nw (例如 100000) 时 ， 标 准 方程 的 计算 将 极其 绥 


好 的 一 面 是 ， 相 对 于 训练 集中 的 实例 数量 (O (m) ) 来 说 ,方程 是 线 
性 的 ， 所 以 能 够 有 效 地 处 理 大 量 的 训练 集 ， 只 要 内 存 足 够 。 


同样 ， 线 性 回归 模型 一 经 训练 不论 是 标准 方程 还 是 其 他 算法 ，， 预 
测 束 非常 快速 ， 因 为 计算 复杂 度 相对 于 想 要 预测 的 实例 数量 和 特征 数 
量 来 说 ， 都 是 线性 的 。 换 句 话 说 ， 对 两 倍 的 实例 (或 者 是 两 倍 的 特征 
数 ) 进行 预测 ， 大 概 需要 两 倍 的 时 间 。 


现在 ， 我 们 再 看 儿 个 截然 不 同 的 线性 回归 模型 的 训练 方法 ， 这 些 方法 
更 适合 特征 数 或 者 训练 实例 数量 大 到 内 存 无 法 满足 要 求 的 场景 。 


[1]. 通 党 情况 下 ， 学 习 算 法 优化 的 男 数 都 与 评估 最 终 模型 时 使 用 的 性 能 
指标 函数 不 同 。 这 可 能 是 因为 前 着 更 容易 计算 ， 也 可 能 是 因为 前 者 具 
有 茶 些 后 者 所 缺乏 的 震 异 属性 ， 还 可 能 是 因为 我 们 想 在 训练 期 间 约束 
模型 ， 后 面 讨论 正则 化 时 将 会 看 到 。 


[2] 这 个 方程 返回 的 6 值 能 够 最 小 化 成 本 画 数 ， 此 证 明 过 程 不 在 本 书 艺 
围 之 内 。 


[3] 注意 ，Scikit-Learn 将 偏 置 项 (intercept) 和 特征 权重 (coet) 分 离 
FFT ° 


梯度 下 降 


梯度 下 降 是 一 种 非常 通用 的 优化 算法 ， 能 够 为 大 范围 的 问题 找到 最 优 
o 梯度 下 降 的 中 心思 想 就 是 欠 代 地 调整 参数 从 而 使 成 本 函数 最 小 


假设 你 迷失 在 山上 的 浓 筋 之 中 ， 你 能 感觉 到 的 只 有 你 脚下 路 面 的 坡 
度 。 快 速 到 达 山 脚 的 一 个 策略 就 是 沿 着 最 陡 的 方向 下 坡 。 这 束 是 梯度 
下 降 的 做 法 : 通过 测量 参数 向 量 6 相 关 的 误差 男 数 的 局 部 梯度 ， 并 不 断 
沿 着 降低 梯度 的 方向 调整 ， 直 到 梯度 降 为 0， 到 达 最 小 值 ! 


具体 来 说 ， 首 先 使 用 一 个 随机 的 8 值 《这 被 称 为 随机 初始 化 ) ， 然 后 逐 


步 改 进 ， 每 次 踏 出 一 步 ， 每 一 步 都 笑 试 降低 一 点 成 本 函数 (如 
MSE) ， 直 到 算法 收敛 出 一 个 最 小 值 (参见 图 4-3) 。 


成 本 


图 4-3: 梯度 下 降 


梯度 下 降 中 一 个 重要 参数 是 每 一 步 的 步 长 ， 这 取决 于 超 参数 学 习 率 。 
算法 需要 经 过 大 量 迭 代 才 能 收 全 ， 这 将 耗费 很 长 时 
间 (参见 图 4-4) 。 


Se 如 末 学 习 率 太 高 ， 那 你 可 能 会 越过 山谷 直接 到 达 山 的 为 一 
边 ， 甚 至 有 可 能 比 之 前 的 起 点 还 要 高 。 这 会 导致 算法 发 散 ， 值 越 来 越 
大 ， 最 后 无 法 找到 好 的 解决 方案 (参见 图 4-5) ° 


成 本 


图 4-4: 学 习 率 太 低 


图 4-5: ZJARA 


最 后 ， 并 不 是 所 有 的 成 本 函数 看 起 来 部 像 一 个 漂 腕 的 碗 。 有 的 可 能 

着 像 洞 、 像 山脉 、 像 高 原 或 者 是 各 种 不 规则 的 地 形 ， 导 致 很 难 收敛 到 
最 小 值 。 图 4-6 显 示 了 梯度 下 降 的 两 个 主要 挑战 : 如 有 果 随 机 初始 化 ， 算 
法 从 左 侧 起 步 ， 那 么 会 收敛 到 一 个 局 部 最 小 值 ， 而 不 是 全 局 最 小 值 。 
如 果 算 法 从 右 侧 起 步 ， 那 么 需要 经 过 很 长 时 间 才 能 越过 整 片 高 原 ， 如 
果 你 停 下 得 太 早 ， 将 永远 达 不 到 全 局 最 小 值 。 


幸好 ， 线 性 回归 模型 的 MSE 成 本 函数 恰好 是 个 是 函数 ， 这 意味 着 连接 
曲线 上 任意 两 个 点 的 线段 永远 不 会 跟 曲 线 相交 。 也 就 是 说 不 存在 局 部 
最 小 ， 只 有 一 个 全 局 最 小 值 。 它 同时 也 是 一 个 连续 函数 ， 所 以 斜率 不 
会 产生 陡峭 的 变化 。 出 这 两 件 事 保证 的 结论 是 ， 即 便 是 乱 走 ， 梯 度 下 
降 都 可 以 趋 近 到 全 局 最 小 值 〈 只 要 等 待 时 间 足 够 长 ， 学 习 率 也 不 是 太 


=) 


高 ) 


局 部 最 小 值 “全 局 最 小 值 


图 4-6: 梯度 下 降 陷阱 


成 本 画 数 虽 然 是 硫 状 的 ， 但 如 果 不 同 特征 的 尺寸 差别 巨大 ， 那 它 可 能 
是 一 个 非常 细 长 的 硫 。 如 图 4-7 所 示 的 梯度 下 降 ， 左 边 的 训练 集 上 特征 1 
和 特征 2? 具 有 相同 的 数值 规模 ， 而 右边 的 训练 集 上 ， 特 征 1 的 值 则 比特 
征 2 要 小 得 多 。 QE: 因为 特征 1 的 值 较 小 ， 所 以 91 需要 更 大 的 变化 来 
影响 成 本 画 数 ， 这 就 是 为 什么 碗 形 会 沿 着 0 1 轴 拉 长 。) 


0; nn ait 


6, 


图 4-7: 特征 值 缩 放 和 特征 值 无 缩放 的 梯度 下 降 


正如 你 所 见 ， 左 图 的 梯度 下 降 算 法 直接 走向 最 小 值 ， 可 以 快速 到 达 。 
而 在 右 图 中 ， 先 是 沿 着 与 全 局 最 小 值 方 同 近 平素 直 的 方向 前 进 ， 接 下 
来 是 一 段 几乎 平坦 的 长 长 的 山谷 。 最 终 还 是 会 抵达 最 小 值 ， 但 是 这 和 需 
要 花费 大 量 的 时 间 。 


从、 应 用 梯度 下 降 时 ， 需 要 保证 所 有 特征 值 的 大 小 比例 都 差不多 ( 比 
如 使 用 Scikit-Learn 的 StandardScaler 类 ) ， 否 则 收敛 的 时 间 会 长 很 多 。 


这 张 图 也 说 明 ， 训 练 模 型 也 就 是 搜寻 使 成 本 函数 (在 训练 集 上 ) 最 小 
化 的 参数 组 合 。 这 是 模型 参数 空间 层面 上 的 搜索 ， 模 型 的 参数 越 多 ， 
这 个 空间 的 维度 就 越 多 ， 搜 索 就 越 难 。 同 样 是 在 干草 堆 里 寻找 一 根 
针 ， 在 一 个 三 百 维 的 空间 里 就 比 在 一 个 三 维 空间 里 要 束 手 得 多 。 壮 运 
的 是 ， 线 性 回归 模型 的 成 本 函数 是 凸 函 数 ， 针 台 英 在 碗 底 。 


批量 梯度 下 降 
要 实现 梯度 下 降 ， 你 需要 计算 每 个 模型 天 于 参数 9 的 成 本 函数 的 村 
度 。 换 言 之 ， 你 需要 计算 的 是 如 果 改 变 6j ， 成 本 画 数 会 改变 多 少 。 这 


被 称 为 偏 导 数 。 这 就 好 比 是 在 问 “ 如 果 我 面 问 世 ， 我 脚下 的 坡度 斜率 是 
多 少 ? ”然后 面向 北 问 同样 的 问题 《如 果 你 想象 超过 三 个 维度 的 宇宙 ， 


ie. °° 


SECO) 
偏 导数 aa" 


公式 4-5: EZREK ATHS Ai EA 
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如 果 不 想 单独 计算 这 些 梯度 ， 可 以 使 用 公式 4-6 对 其 进行 一 次 性 计算 。 
梯度 向 量 ， 记 作 YoMSE(0)， 包 含 所 有 成 本 画 数 (每 个 模型 参数 一 
个 ) 的 偏 导数 。 


公式 4-6: 成 本 函数 的 梯度 回 量 


V WMSE(b) = | 00 , =x (X+§-y) 


Pes ec DALEE FENE H, BEREZI 
练 集 X 的 。 这 就 是 为 什么 该 算法 会 被 称 为 批量 梯度 下 降 ， 每 一 步 都 使 用 
整 批 训练 数据 。 因 此 ， 面 对 非常 庞大 的 训练 集 时 ， 算 法 会 变 得 极 慢 
(不 过 我 们 即将 看 到 快 得 多 的 梯度 下 降 算法 ) 。 但 是 ， 梯 度 下 降 算法 
随 特征 数量 扩展 的 表现 比较 好 :如 果 要 训练 的 线性 模型 拥有 几 十 万 个 
特征 ， 使 用 梯度 下 降 比 标准 方程 要 快 得 多 。 


一 旦 有 了 梯度 向 量 ， 哪 个 点 向 上 ， 就 朝 反方 向 下 坡 。 也 就 是 从 9 中 减 去 
VeMSECO) 。 这 时 学 习 率 就 发 挥 作用 了 : 外用 梯度 向 量 乘 以 n 确 定 下 
坡 步 长 的 大 小 (公式 4-7) 。 


公式 4-7: 梯度 下 降 步 长 


Oext step) — py nVoM S E(@) 


我 们 来 看 看 这 个 算法 的 快速 实现 : 


eta = 0.1 # learning rate 


n_iterations = 1000 


m = 100 


theta = np.random.randn(2,1) # random initialization 


for iteration in range(n_iterations): 


gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y) 


theta = theta - eta * gradients 


也 不 是 太 难 ! AE EI Atheta: 


>>> theta 
array([[ 4.21509616], 
[ 2.77011339]]) 
嘿 ， 这 不 正 是 标准 方程 的 发 现 么 ! 梯度 下 降 表现 完美 。 如 果 使 用 了 其 


他 的 学 习 率 eta 呢 ?图 4-8 展 现 了 分 别 使 用 三 种 不 同 的 学 习 率 时 ， 梯 度 下 
降 的 前 十 步 (虚线 表示 起 点 ) ° 


n=0.02 


0 
15 20 00 O58 10 15 20 
x; yy Xl 


图 4-8: 不 同学 习 率 的 梯度 下 降 


左 图 的 学 习 率 太 低 : 算法 最 终 还 是 能 找到 解决 方法 ， 就 是 需要 太 长 时 
间 。 中 间 的 学 习 率 看 起 来 非常 棒 : 几 次 迭代 就 收敛 出 了 最 终 解 。 而 右 
边 的 学 习 率 太 高 ， 算 法 发 散 ， 直 接 跳 过 了 数据 区 域 ， 并 且 每 一 步 都 离 
实际 解决 方案 越 来 越 远 。 


要 找到 合适 的 学 习 率 ， 可 以 使 用 网 格 搜索 〈 见 第 2 章 ) 。 但 是 你 可 能 需 
SERIA TORS, ROPER RT] IARE AE A RAYS 


URAL RESTA], BE ABR BAT R RUE? 如 有 果 设 置 太 低 ， 算 法 可 能 在 离 
最 优 解 还 很 远 时 就 停 了 ;但 是 如 果 设 置 得 太 高 ， 模 型 达到 最 优 解 后 ， 
继续 迭代 参数 不 再 变化 ， 又 会 痕 费时 间 。 一 个 简单 的 办 法 是 ， 在 开始 
时 设置 一 个 非常 大 的 侈 代 次 数 ， 但 是 当 梯 度 向 量 的 值 变 得 很 微小 时 中 
断 算法 一 一 也 惑 是 当 它 的 范 数 变 得 低 于 ( 称 为 容 差 ) 时 ， 因 为 这 时 梯 
度 下 降 已 经 ULF) 到 达 了 最 小 值 。 


收敛 率 


成 本 函数 为 凸 函 数 ， 并 且 和 斜率 没有 陡峭 的 变化 时 (如 MSE 成 本 画 
数 ) ， 通 过 批量 梯度 下 降 可 以 看 出 一 个 固定 的 学 习 率 有 一 个 收敛 率 ， 


1 
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天下 上。 换 锯 活 沿 ， 各 果 将 容 关 缩小 为 原来 的 110 (以 得 到 
更 精确 的 解 ) ， 算 法 将 不 得 不 运行 10 倍 的 和 欠 代 次 数 。 


随机 梯度 下 降 


批量 梯度 下 降 的 主要 问题 是 它 要 用 整个 训练 集 来 计算 每 一 步 的 梯度 ， 
所 以 训练 集 很 大 时 ， 算 法 会 特别 慢 。 与 之 相反 的 极端 是 随机 梯度 下 
降 ， 每 一 步 在 训练 集中 随机 选择 一 个 实例 ， 并 且 仅 基于 该 单个 实例 来 
计算 梯度 。 显 然 ， 这 让 算法 变 得 快 多 了 ， 因 为 每 个 迭代 都 只 需要 操作 
少量 的 数据 。 它 也 可 以 被 用 来 训练 海量 的 数据 集 ， 因 为 每 次 迭代 只 需 
要 在 内 存 中 运行 一 个 实例 即 可 (SGD 可 以 作为 核 外 算法 实现 Bi) o 


男 一 方面 ， 由 于 算法 的 随机 性 质 ， 它 比 批量 梯度 下 降 要 不 规则 得 多 。 
成 本 函数 将 不 再 是 绥 绥 降低 直到 抵达 最 小 值 ， 而 十 不 断 上 上 下 下 ,但 
是 从 整体 来 看 ， 还 是 在 慢 慢 下 降 。 随 着 时 间 推 移 ， 节 终 会 非常 接近 最 
小 值 ， 但 是 即使 它 到 达 了 最 小 值 ， 依 旧 还 会 持续 反弹 ， 永 远 不 会 停止 
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图 4-9: 随机 梯度 下 降 


当成 本 函数 非常 不 规则 时 〈 见 图 4-6) ， 随 机 梯度 下 降 其 实 可 以 帮助 算 
> 
EEA o 


因此 ， 随 机 性 的 好 处 在 于 可 以 逃离 局 部 最 优 ， 但 缺点 是 永远 定位 不 出 
最 小 值 。 要 解决 这 个 困境 ， 有 一 个 办 法 是 逐步 降低 学 习 率 。 开 始 的 步 
长 比较 大 〈 这 有 助 于 快速 进展 和 逃离 局 部 最 小 值 ) ， 然 后 越 来 越 小 ， 
让 算法 尽量 靠近 全 局 最 小 值 。 这 个 过 程 叫 作 模 拟 退 火 ， 因 为 它 类 似 于 
冶金 时 炊 化 的 金属 慢 慢 冷 却 的 退火 过 程 。 确 定 每 个 迭代 学 习 率 的 函数 
叫 作 学 习 计 划 。 如 果 学 习 率 降 得 太 快 ， 可 能 会 陷入 局 部 最 小 值 ， 甚 至 
征 停留 在 走 癌 最 小 值 的 半途 中 。 如 有 果 学 习 率 降 得 太 慢 ， 你 需要 太 长 时 
间 才 能 跳 到 差不多 最 小 值 附 近 ， 如 果 提 早 结束 训练 ， 可 能 只 得 到 一 个 
次 优 的 解决 方案 。 


下 面 这 段 代 码 使 用 了 一 个 简单 的 学 习 计 划 实 现 随机 梯度 下 降 : 


n_epochs = 50 


to, t1 = 5, 50 # learning schedule hyperparameters 


def learning_schedule(t): 


return tO / (t + t1) 


theta = np.random.randn(2,1) # random initialization 


for epoch in range(n_epochs): 
for i in range(m): 
random_index = np.random.randint(m) 
xi = X_b[random_index:random_index+1] 
yi = y[random_index: random_index+1] 
gradients = 2 * xi.T.dot(xi.dot(theta) - yi) 
eta = learning_schedule(epoch * m + i) 


theta = theta - eta * gradients 
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>>> theta 
array([[ 4.21076011], 


[ 2.74856079]]) 


图 4-10 显 示 了 训练 过 程 的 前 10 步 (注意 不 规则 的 步子 ) 。 


因为 实例 是 随机 挑选 ， 所 以 在 同一 轮 里 茶 些 实例 可 能 被 挑选 多 次 ， 而 
有 些 实例 则 完全 没 被 克 到 。 如果 你 布 望 每 一 轮 算 法 都 能 裔 历 每 个 实 
例 ， 有 一 种 办 法 是 将 训练 集 洗 牌 打 乱 ， 然 后 一 个 接 一 个 的 使 用 实例 ， 
用 完 再 重新 洗 牌 ， 以 此 继续 。 不 过 这 种 方法 通 利 收敛 得 更 慢 。 


在 Scikitr-Learn 里 ， 用 SGD 执 行 线性 回归 可 以 使 用 SGDRegressor 类 ， 其 
默认 优化 的 成 本 函数 是 平方 误 产 。 下 面 这 上 段 代 码 从 学 习 率 0.1 开 始 
(eta0=0.1) ， 使 用 默认 的 学 习 计 划 (跟前 面 的 学 习 计 划 不 同 ) 运行 了 
50 轮 ， 而 且 没 有 使 用 任何 正则 化 (penalty=None， 后 面 即将 介绍 更 多 与 
此 相关 的 细节 ) : 


图 4-10: 随机 梯度 下 降 的 前 10 步 


from sklearn.linear_model import SGDRegressor 
sgd_reg = SGDRegressor(n_iter=50, penalty=None, eta0=0.1) 


sgd_reg.fit(X, y.ravel()) 


你 再 次 得 到 了 一 个 跟 标 准 方程 的 解 非常 相近 的 解决 方案 : 


>>> sgd_reg.intercept_, sgd_reg.coef_ 


(array([ 4.18380366]), array([ 2.74205299] ) ) 


小 批量 梯度 下 降 


我 们 要 了 解 的 最 后 一 个 梯度 下 降 算 法 叫 作 小 批量 梯度 下 降 。 一 旦 理解 
了 批量 梯度 下 降 和 随机 梯度 下 降 ， 这 个 算法 就 非常 容易 理解 了 : 每 一 
步 的 梯度 计算 ， 既 不 是 基于 整个 训练 集 (如 批量 梯度 下 降 ) 也 不 是 基 
于 单个 实例 (如 随机 梯度 下 降 ) ， 而 是 基于 一 小 部 分 随机 的 实例 集 也 
就 是 小 批量 。 相 比 随 机 梯度 下 降 ， 小 批量 梯度 下 降 的 主要 优势 在 于 可 
T ie ya 
处 理 器 时 。 


这 个 算法 在 参数 空间 层面 的 前 进 过 程 也 不 像 SGD 那 样 不 稳定 ， 特 别 是 
批量 较 大 时 。 所 以 小 批量 梯度 下 降 最 终 会 比 SGD 更 接近 最 小 值 一 些 。 
但 是 另 一 方面 ， 它 可 能 更 难 从 局 部 最 小 值 中 逃脱 〈 不 是 我 们 前 面 看 到 
的 线性 回归 问题 ， 而 是 对 于 那些 深 受 局 部 最 小 值 陷阱 困扰 的 问题 ) 。 
图 4-11 显 示 了 三 种 梯度 下 降 算 法 在 训练 过 程 中 参数 空间 里 的 行进 路 线 。 
它们 最 终 都 汇聚 在 最 小 值 附 近 ， 批 量 梯度 下 降 最 终 停 在 了 最 小 值 上 ， 
而 随机 梯度 下 降 和 人 小 批量 梯度 下 降 还 在 继续 游 走 。 但 是 ， 别 款 了 批量 
梯度 可 是 花费 了 大 量 时 间 来 计算 每 一 步 的 ， 如 果 用 好 了 学 习 计 划 ， 随 
机 梯度 下 降 和 小 批量 梯度 下 降 也 同样 能 到 达 最 小 值 。 
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图 4-11: 梯度 下 降 的 参数 路 径 


最 后 ， 我 们 来 比较 一 下 到 目前 为 止 所 讨论 过 的 线性 回归 算法 [站 (mæ 
训练 实例 的 数量 ，n 是 特征 数量 ) ， 见 表 4-1 。 


表 4-1: 线性 回归 算法 比较 
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标准 方程 Ro f 慢 0 LineatRegression 
批量 梯度 下 降 € f tk 2 I wa 

随机 梯度 T 降 快 是 快 22 是 SGDRegressor 
小 批量 梯度 下 降 快 。 是 快 22 是 nla 


AEFI. 所 有 这 些 算法 最 后 出 来 的 模型 都 非常 相 
似 ， 并 且 以 完全 相同 的 方式 做 出 预测 。 


[从 技术 上 讲 ， 其 导数 满足 利 普 希 敬 连续 (Lipschitz Continuous) ° 
[2].Eta (n) 是 第 7 个 希腊 字母 。 
[3] . 见 第 1 章 中 对 核 外 算法 的 讨论 。 


[4] .标准 方程 仅 能 用 于 线性 回归 ， 但 是 梯度 下 降 算 法 还 可 以 用 于 训练 许 
多 其 他 模型 ， 后 面 我 们 将 会 看 到 。 


多 项 式 回归 


如 果 数 据 比 简单 的 直线 更 为 复杂 ， 该 怎么 办 ? 令 人 意 想不到 的 是 ， 其 
实 你 也 可 以 用 线性 模型 来 拟 合 非 线性 数据 。 一 个 人 简单 的 方法 就 古 将 每 
个 特征 的 需 次 方 添加 为 一 个 者 特征 ， 然 后 在 这 个 拓展 过 的 特征 集 上 训 
练 线性 模型 。 这 种 方法 被 称 为 多 项 式 回归 。 


我 们 看 下 面 这 个 例子 ， 首 先 ， 基 于 简单 的 二 次 方程 QÈ: 二 次 方程 的 


e 制造 一 些 非 线性 数据 (添加 随机 噪声 ， 见 图 4- 
12) : 


X = 6 * np.random.rand(m, 1) - 3 


y = ©.5 * X**2 + X + 2 + np.random.randn(m, 1) 


图 4-12: 生成 的 非 线性 带 噪 声 数 据 集 


显然 ， 直线 永远 不 可 能 拟 合 这 个 数据 。 所 以 我 们 使 用 Scikit-Learn 的 
PolynomialFeatures 类 来 对 训练 数据 进行 转换 ， 将 每 个 特征 的 平方 (二 
次 多 项 式 ) 作为 新 特征 加 入 训练 集 (这 个 例子 中 只 有 一 个 特征 ) : 

>>> from sklearn.preprocessing import PolynomialFeatures 

>>> poly_features = PolynomialFeatures(degree=2, include_bias=False) 

>>> X_poly = poly_features.fit_transform(X) 


>>> X[0] 


array([-0.75275929]) 


>>> X_poly[0] 


array([-0.75275929, ©.56664654] ) 


又 _poly 现 在 包 人 原本 的 特征 X 和 该 特征 的 平方 。 现 在 对 这 个 扩展 后 的 训 
练 集 匹 配 一 个 LinearRegression 模 型 ( 见 图 4-13) : 

>>> lin_reg = LinearRegression() 

>>> lin_reg.fit(X_poly, y) 

>>> lin_reg.intercept_, lin_reg.coef_ 


(array([ 1.78134581]), array([[ 0.93366893, 0.56456263]])) 


还 不 错 ! 模型 预 估 7 =0.56%1 +0.93x 1+1.78， 而 实际 上 原本 的 函数 是 
y=0.5X1 +1.0x 1+2.0+ 高 斯 噪声 。 


注意 ， 当 存在 多 个 特征 时 ， 多 项 式 回 归 能 够 发 现 特征 和 特征 之 间 的 关 
FR 〈 纯 线性 回归 模型 做 不 到 这 一 点 ) 。 这 是 因为 PolynomialFeatures 会 
在 给 定 的 多 项 式 阶 数 下 ， 添 加 所 有 特征 组 合 。 例 如 ， 有 两 个 特征 a 和 

b， 阶 数 degree=3，PolynomialFeatures 不 只 会 添加 特征 a*、a35、b? 和 b3 
， 还 会 添加 组 合 ab、a*b 以 及 ab*。 


图 4-13: 多 项 式 回 归 模 型 预测 


Pal PolynomialFeatures (degree=d) 可 以 将 一 个 包含 n 个 特征 的 数组 转 


ntd 


换 为 包含 4d1n! 个 特征 的 数组 ， 其 中 m! 是 的 阶乘 ， 等 于 1x2x3x...xn 。 
要 小 心 特 征 组 合 的 数量 爆炸 。 


学 习 曲 线 


高 阶 多 项 式 回 归 对 训练 数据 的 拟 合 ， 很 可 能 会 比 简单 线性 回归 要 好 。 
例如 ， 图 4-14 使 用 了 一 个 300 阶 多 项 式 模 型 来 处 理 训练 数据 ， 并 将 结 采 
与 一 个 纯 线 性 模型 和 一 个 二 次 模型 (二 阶 多 项 式 ) 进行 对 比 。 注 意 看 
这 个 300 阶 模型 是 如 何 波 动 以 使 其 尽 可 能 贴近 训练 实例 的 。 


当然 ， 这 个 高 阶 多 项 式 回归 模型 严重 地 过 度 拟 合 了 训练 数据 ， 而 线性 
模型 则 十 拟 合 不 足 。 这 个 案例 中 泛 化 结 末 最 好 的 是 二 次 模型 。 这 很 合 
理 ， 因 为 数据 本 身 是 用 二 次 模型 生成 的 。 但 是 一 般 来 说 ， 你 不 会 知道 
生成 数据 的 函数 是 什么 ， 那 么 该 如 何 确定 模型 的 复杂 程度 呢 ? 怎么 才 
能 判断 模型 是 过 度 拟 合 还 是 拟 合 不 足 呢 ? 


在 第 2 章 中 ， 我 们 使 用 了 交叉 验证 来 评估 模型 的 泛 化 性 能 。 如 果 模 型 在 
训练 集 上 表现 良好， 但 是 交叉 验证 的 泛 化 表现 非常 糟糕 ， 那 么 模型 融 
是 过 度 拟 合 。 如 果 在 二 者 上 的 表现 都 不 佳 ， 那 就 是 拟 合 不 足 。 这 是 判 
断 模 型 太 简单 还 是 太 复 杂 的 一 种 方法 。 


图 4-14: 高 阶 多 项 式 回归 


还 有 一 种 方法 是 观察 学 习 曲 线 : 这 个 曲线 绘制 的 是 模型 在 训练 集 和 验 
证 集 上 ， 关 于 “训练 集 大 小 ”的 性 能 函数 。 要 生成 这 个 曲线 ， 只 需要 在 


不 同 大 小 的 训练 子 集 上 多 次 训练 模型 即 可 。 下 面 这 段 代 码 ， 在 给 定 训 
RR PRET PM, Ze RAL HY A) Hk: 
from sklearn.metrics import mean_squared_error 


from sklearn.model_selection import train_test_split 


def plot_learning_curves(model, X, y): 
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2) 
train_errors, val_errors = [], [] 
for m in range(1, len(X_train)): 
model. fit(X_train[:m], y_train[:m]) 
y_train_predict = model.predict(X_train[:m]) 
y_val_predict = model.predict(X_val) 
train_errors.append(mean_squared_error(y_train_predict, y_train[:m])) 
val_errors.append(mean_squared_error(y_val_predict, y_val)) 
plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train") 


plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val") 


看 看 纯 线 性 回归 模型 (一 条 直线 ) 的 学 习 曲 线 (如 图 4-15 所 示 ) 


lin_reg = LinearRegression() 


plot_learning_curves(lin_reg, X, y) 


这 里 值得 解释 一 二 ， 首 和 完 ， 我 们 来 看 训练 数据 上 的 性 能 ， 当 训练 集中 

只 包括 一 两 个 实例 时 ， 模 型 可 以 完美 拟 合 ， 这 是 为 什么 曲线 是 从 0 开始 
的 。 但 是 ， 随 着 新 的 实例 被 添加 进 训练 集中 ， 模 型 不 再 能 完美 拟 合 训 
练 数据 了 ， 因 为 数据 有 噪声， 并且 根本 就 不 是 线性 的 。 所 以 训练 集 的 
误差 一 路 上 升 ， 直 到 抵达 一 个 高 地 ， 从 这 一 点 开始 ， 添 加 新 实例 到 训 
练 集中 不 再 使 平均 误 闪 上 升 或 下 降 。 然 后 我 们 再 来 看 看 验证 集 的 性 能 
表现 。 当 训练 集 实例 非常 少时 ， 模 型 不 能 很 好 地 沁 化 ， 这 是 为 什么 验 
证 集 误差 的 值 一 开始 非常 大 ， 随 着 模型 经 历 更 多 的 训练 数据 ， 它 开始 
学 习 ， 因 此 验证 集 旋 莽 慢 慢 下 降 。 但 古 仅 靠 一 条 直线 终归 不 能 很 好 地 
为 数据 建 模 ， 所 以 误差 也 停留 在 了 一 个 高 值 ， 跟 为 一 条 曲线 十 分 接 
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图 4-15: 学 习 曲 线 


ap cae a 两 条 曲线 均 到 达 高 地 ， 非 常 接 
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外。 你 需要 使 用 更 复 洒 的 模型 或 者 找到 更 好 的 特征 。 


现在 我 们 再 来 看 看 在 同样 的 数据 集 上 ， 一 个 10 阶 多 项 式 模型 的 学 习 曲 
线 〈 见 图 4-16) : 


from sklearn.pipeline import Pipeline 


polynomial_regression = Pipeline( ( 
PolynomialFeatures(degree=10, include_bias=False) ), 


("poly features", 


("sgd_reg", LinearRegression()), 


plot_learning_curves(polynomial_regression, X, y) 


RS) HARARE RARE, BEA ANERER A: 
训练 数据 的 误 老 远 低 于 线性 回归 模型 。 

:两 条 曲线 之 间 有 一 定 差距 。 这 意味 着 该 模型 在 训练 数据 上 的 表现 比 验 
证 集 上 要 好 很 多 ， 文 下 是 过 度 拟 合 的 标志 。 但 是 ， 如 果 你 使 用 更 大 的 
训练 集 ， 那 么 这 两 条 曲线 将 会 越 来 越 近 。 


一 训练 集 
一 HER 


0 10 20 30 4 50 60 W 80 
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图 4-16: 多 项 式 回归 模型 的 学 习 曲 线 
~ 改进 模型 过 度 拟 合 的 方法 之 一 是 提供 更 多 的 训练 数据 ， 直 到 验证 误 
差 接 近 训 练 误差 。 
偏差 /方差 权衡 


在 统计 学 和 机 器 学 习 领域 ， 一 个 重要 的 理论 结果 是 ， 模 型 的 泛 化 误差 
可 以 被 表示 为 三 个 截然 不 同 的 误差 之 和 ， 


偏差 


这 部 分 泛 化 误差 的 原因 在 于 错误 的 假设 ， 比 如 假设 数据 是 线性 的 ， 而 
实际 上 是 二 次 的 。 高 侦 送 模型 最 有 可 能 对 训练 数据 拟 合 不 足 。 也 


方才 


这 部 分 误差 是 由 于 模型 对 训练 数据 的 微小 变化 过 度 敏 感 导 致 的 。 具 有 
高 自由 度 的 模型 (例如 高 阶 多 项 式 模 型 》 很 可 能 也 有 高 方差 ， 所 以 很 
容易 对 训练 数据 过 度 拟 合 。 


不 可 避免 的 误差 


这 部 分 误差 是 因为 数据 本 身 的 噪声 所 致 。 减少 这 部 分 误差 的 唯一 方法 
这 是 清理 数据 例如 修复 数据 产 ， 如 损坏 的 信 感 句 ， 或 者 是 检测 并 和 
RARE) 。 


增加 模型 的 复杂 上 度 通常 会 显著 提升 模型 的 方差 ， 减 少 偏差 。 反 过 来 ， 
eae ERD E o XB AIT A 
其 大 Hy ° 


[11. 不 要 将 这 里 的 偏差 概念 与 线性 模型 中 的 偏 置 项 概念 弄 混 。 
正则 线性 模型 


如 第 1 章 和 第 2 章 所 述 ， 减 少 过 度 拟 合 的 一 个 好 办 法 就 是 对 模型 正则 化 
CARE) : 它 拥 有 的 自由 度 越 低 ， 就 越 不 容易 过 度 拟 合 数 据 。 比 
如 ， 将 多 项 式 模 型 正则 化 的 和 商 单 方法 下 是 降低 多 项 式 的 阶 数 。 


对 线性 模型 来 说 ， 正 则 化 通常 通过 约束 模型 的 权重 来 实现 。 接 下 来 我 
们 将 会 使 用 岭 回 归 (Ridge Regression) 、 套 索 回 归 (Lasso 

Regression) 及 弹性 网 络 (Elastic Net) 这 三 种 不 同 的 实现 方法 对 权重 进 
行 约 束 。 


SE 


SA (也 叫 作 吉 洪 庄 夫 正则 化 ) 是 线性 回归 的 正则 化 版 : ERAK 
数 中 添加 一 个 等 于 4 LFF 的 正则 项 。 这 使 得 学 习 中 的 算法 不 仅 需要 
拟 合 数据 ， 同 时 还 要 让 模型 权重 保持 最 小 。 注 意 ， 正 则 项 只 能 在 训练 
的 时 候 添 加 到 成 本 函数 中 ， 一 旦 训练 完成 ， 你 需要 使 用 未 经 正则 化 的 
性 能 指标 来 评估 模型 性 能 。 


` VIEN B15 H ES) CAS E A E RTE A EY) CAS EIS E ee EO 
的 现象 。 除 了 正则 化 以 外 ， 还 有 一 个 导致 这 种 不 同 的 原因 是 ， 训 练 时 
的 成 本 函数 通常 都 可 以 使 用 优化 过 的 衍生 画 数 ， 而 测试 用 的 性 能 指标 
需要 尽 可 能 接近 最 终 目 标 。 举 例 来 说 ， 一 个 使 用 对 数 损失 函数 (log 
loss， 后 文 即 将 讨论 ) 作为 成 本 函数 来 训练 的 分 类 入 ， 节 后 评估 时 使 用 
的 指标 却 是 精度 /召回 率 。 

超 参 数 a 控 制 的 是 对 模型 进行 正则 化 的 程度 。 如 有 果 a=0， 则 岭 回 归 就 是 
线性 模型 。 如 果 o 非 常 大 ， 那 么 所 有 的 权重 都 将 非常 接近 于 零 ， 结 果 是 
一 条 罕 过 数据 平均 值 的 水 平 线 。 公 式 4-8 给 出 了 岭 回 归 模 型 的 成 本 画 
数 o (LI 


公式 4-8: 岭 回 归 成 本 函数 


| 
](6) = MSE(@) tay dS 


注意 ， 这 里 偏 置 项 86, 没有 正则 化 〈 求 和 从 i=1 开 始 ， 不 是 i=0) 。 如 果 我 
们 将 w 定 义 为 特征 权重 的 向 量 (0; 到 6 , ) ， 那 么 正则 项 即 等 于 1/2 
(wio 2 其 中 ||wll ,为 权重 向 量 的 1], 范 数 。 中- 而 对 于 梯度 下 降 ， 只 需 
HEMSE EHE (公式 4-6) 上 添加 aw 即 可 。 


Deh vest erie I> Bt, 必须 对 数据 进行 缩放 (例如 使 用 
StandardScaler) ， 因 为 它 对 输入 特征 的 大 小 非常 敏感 。 大 多 数 正则 化 
模型 都 是 如 此 。 


图 4-17 显 示 了 使 用 不 同 a 值 对 某 个 线性 数据 进行 训练 的 几 种 岭 回 归 模 
型 。 左 边 直 接 使 用 岭 回 归 ， 导 致 预测 是 线性 的 。 而 右边 ， 目 先 使 用 
PolynomialFeatures (degree=10) 对 数据 进行 扩展 ， 然 后 用 
StandardScaler 进 行 缩放 ， 最 后 再 将 岭 回 归 模 型 用 于 结果 特征 ， 这 束 古 


人 正则 化 后 的 多 项 式 回归 。 注 意 看 a 是 如 何 使 预测 更 平坦 的 (也 就 是 不 
那么 极端 ， 更 为 合理 ) ; 这 降低 了 模型 的 方差 ， 但 是 提升 了 偏差 。 
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图 4-17: ISEI 
与 线性 回归 一 样 ， 我 们 也 可 以 在 计算 闭 式 方程 或 者 执行 梯度 下 降 时 ， 
执行 岭 回 归 。 利 商都 一 样 。 公 式 4-9 显 示 的 是 闭 式 解 (其 中 A 是 一 个 nxn 
的 单位 矩阵 [由 ,除了 左上 单元 格 为 0， 其 他 与 偏 置 项 对 应 ) 。 


公式 4-9: 闭 式 解 的 岭 回归 


ô = (X'’+X+aA)7°X' ey 


下 面 是 如 何 使 用 Scikit-Learn 执 行 闭 式 解 的 岭 回 归 (使 用 的 是 公式 4-9 的 
一 种 变 体 ， 利 用 André-Louis Cholesky 的 矩阵 因 式 分 解法 ) : 


>>> from sklearn.linear_model import Ridge 

>>> ridge_reg = Ridge(alpha=1, solver="cholesky") 
>>> ridge_reg.fit(X, y) 

>>> ridge_reg.predict([[1.5]]) 


array([[ 1.55071465]]) 


使 用 随机 梯度 下 降生 


>>> sgd_reg = SGDRegressor(penalty="12") 

>>> sgd_reg.fit(X, y.ravel()) 

>>> sgd_reg.predict([[1.5]]) 

array([[ 1.13500145]]) 
超 参数 penalty 设 置 的 是 使 用 正则 项 的 类 型 。 设 为 "12" 表 示 硕 望 SGD 在 成 
本 函数 中 添加 一 个 正则 项 ， 等 于 权重 疝 量 的 ] , 范 数 的 平方 的 一 半 ， 即 
SEH ° 
ER E 
线性 回归 的 另 一 种 正则 化 ， 叫 作 最 小 绝对 收缩 和 选择 算 子 回归 (Least 
Absolute Shrinkage and Selection Operator Regression, ai /\Lassol5l A, 
Be RIVA) 。 己 岭 回 妇 一 样 ， 它 也 是 同 成 本 函数 增加 一 个 正则 项 ， 
但 是 它 增 加 的 是 权重 向 量 的 1 范 数 ， 而 不 是 1, 范 数 的 平方 的 一 半 ( 参 
见 公式 4-10) ° 
公式 4-10: Lasso 回 归 成 本 函数 


J(0) = MSE(@) 7) 6 


图 4-18 显 示 内 容 与 图 4-17 相 同 ， 但 是 岭 回归 模型 换 成 了 Lasso 回 归 模 
型 ， 同 时 a 值 较 小 。 


Lasso 回 归 的 一 个 重要 特点 是 它 倾 癌 于 完全 消除 挥 最 不 重要 特征 的 权重 

(也 就 是 将 它们 设置 为 零 ) 。 例 如 ， 在 图 4-18 的 右 图 中 的 虚线 (a= 10 
7) 看 起 来 像 是 二 次 的 ， 快 要 接近 于 线性 : 因为 所 有 高 阶 多 项 式 的 特征 
权重 都 等 于 零 。 换 名 话说 ，Lasso 回 归 会 目 动 执行 特征 选择 并 输出 一 个 
MRR ( 即 只 有 很 少 的 特征 有 非 零 权重 ) 。 
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图 4-18: Lasso 回 归 


图 4-19 说 明了 情况 为 什么 是 这 样 。 在 左上 图 中 ， 背 景 轮廓 CRIED) 表示 
未 正则 化 的 MSE 成 本 函数 (a=0) ,日 色 圆 点 表示 该 成 本 函数 下 ， 批 

量 梯度 下 降 (BGD) 的 路 径 。 前 景 轮廓 (ete) 表示 11 惩 如 函数 ， 黄 
色 三 角形 表示 该 惩罚 函数 下 ， 批 量 梯度 下 降 的 路 径 (a0) 。 注 意 看 
这 个 路 线 是 怎么 走 的， 首先 到 达 61 =0， 然 后 一 路 沿 轴 滚 动 ， 直 到 68， = 
0。 在 右上 图 中 ， 背 景 轮 廓 表示 同样 的 成 本 函数 加 上 一 个 a= 0.5 的 11 惩 
罚 函 数 。 全 局 最 小 值 位 于 9 , =0 轴 上 。 批 量 梯度 下 降 和 多 是 到 达 了 8， = 

0， 再 沿 轴 深 动 到 全 局 最 小 值 。 屏 部 的 两 张 图 与 上 图 的 含义 相同 ， 但 是 
把 11 换 成 了 1 惩罚 函数 。 可 以 看 出 ， 正 则 化 后 的 最 小 值 虽然 比 未 正则 

化 的 最 小 值 更 接近 于 8=0， 但 是 权重 并 没有 被 完全 消除 。 
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图 4-19: Lasso 回 归 与 岭 回归 


A 在 Lasso 成 本 函数 下 ，BGD 最 后 的 路 线 似乎 在 轴 上 不 断 上 下 反弹 ， 
这 是 因为 当 9 , =0 时 ， 和 斜率 突变 。 你 需要 逐渐 降低 学 习 率 来 保证 它 癌 全 
局 最 小 值 收敛 。 


当时 8; =0 (i=1，2，...，n) ，Lasso 成 本 函数 是 不 可 微 的 ， 但 是 
任意 0; =0 时 ， 如 果 使 用 次 梯度 向 量 g 5 作为 替代 ， 依旧 可 以 让 梯度 = 
BRIE RISES o A EC4-11 PRA EE [ny] Be, PH Lasso aX 
的 梯度 下 降 。 


公式 4-11: Lasso 回 归 次 梯度 向 量 
sign( 6, ) 
mh ‘J 

g(0, J) = V,MSE(8) + al ysign(0:) = { 0(0=0) 
slgn(b ) 


下 面 是 一 个 使 用 Scikit-Learn 的 Lasso 类 的 小 例子 。 你 还 可 以 使 用 
SGDRegressor (penalty="11" ° 


>>> from sklearn.linear_model import Lasso 


>>> lasso_reg = Lasso(alpha=0.1) 


>>> lasso_reg.fit(X, y) 


>>> lasso_reg.predict([[1.5]]) 


array([ 1.53788174]) 


弹性 网 络 


弹性 网 络 是 岭 回 归 与 Lasso 回 归 之 则 的 中 间 地 市 。 其 正则 项 束 古 岭 回 归 
和 Lasso 回 归 的 正则 项 的 混合 ,混合 比例 通过 r 来 控制 。 当 r= 0 时 ， 弹 性 
ee TS a eae Ana 
12) ° 


公式 4-12: 弹性 网 络 成 本 函数 


J(6) = MSE(0) +ra Y lt a Dl 
kal psd 


ABA , BRA 6 Fe PETIA > REI ` Lasso VAA Ee? 通 
利 来 说 ， 有 正则 化 一 一 哪 介 是 很 小 ， 总 是 比 没有 更 可 取 一 些 。 所 以 大 
多 数 情 况 下 ， 你 应 该 避免 使 用 纯 线性 回归 。 上 岭 回 归 是 个 不 错 的 默认 远 
择 ， 但 写 如 果 你 觉得 实际 用 到 的 特征 只 有 少数 几 个 ， 那 束 应 该 更 倾 问 
于 Lasso 回 归 或 是 弹性 网 络 ， 因 为 它们 会 将 无 用 等 征 的 权重 降 为 堆 。 一 
般 而 言 ， 弹 性 网 络 优 于 Lasso 回 归 ， 因 为 当 特 征 数量 超过 训练 实例 数 

量 ， 又 或 者 是 几 个 特征 强 相 关 时 ，Lasso 回 归 的 表现 可 能 非常 不 稳定 。 


Scikit-Learn 的 ElasticNet 的 小 例子 (11_ratio 对 应 混合 比 
lr : 


>>> from sklearn.linear_model import ElasticNet 


>>> elastic_net = ElasticNet(alpha=0.1, 11_ratio=0.5) 


>>> elastic_net.fit(X, y) 


>>> elastic_net.predict([[1.5]]) 


array([ 1.54333232] ) 


早期 停止 法 


对 于 梯度 下 降 这 一 类 迭代 学 习 的 算法 ， 还 有 一 个 与 众 不 同 的 正则 化 方 
法 ， 就 是 在 验证 误差 达到 最 小 值 时 停止 训练 ， 该 方法 叫 作 早期 停止 

法 。 图 4-20 展 现 了 一 个 用 批量 梯度 下 降 训练 的 复杂 模型 (高 阶 多 项 式 回 
归 模 型 ，。 经 过 一 轮 一 轮 的 训练 ， 算 法 不 断 地 学 习 ， 训 练 集 上 的 预测 
误差 (RMSE) 自然 不 断 下 降 ， 同 样 其 在 验证 集 上 的 预测 误差 也 随 之 下 
降 。 但 是 ， 一 段 时 间 之 后 ， 验 证 误差 停止 下 降 反 而 开始 回升 。 这 说 明 
模型 开始 过 度 拟 合 训练 数据 。 通 过 早期 停止 法 ， 一 旦 验证 误差 达到 最 
小 值 就 立刻 停止 训练 。 这 是 一 个 非常 简单 而 有 效 的 正则 化 技巧 ， 所 以 
Geoffrey Hinton 称 其 为 “美丽 的 免费 午餐 ”。 
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图 4-20: 早期 停止 法 正则 化 


A 对 随机 梯度 下 降 和 人 小 批量 梯度 下 降 来 说 ， 曲 线 没有 这 么 平滑 ， 所 以 
很 难 知 道 古 否 已 经 达到 最 小 值 。 一 种 解决 方法 是 等 验证 误 苇 超过 最 小 
值 一 段 时 间 之 后 再 停止 (这 时 你 可 以 确信 模型 不 会 变 得 更 好 了 ) ， 然 
后 将 模型 参数 回 深 到 验证 误差 最 小 时 的 位 置 。 


下 面 是 早期 停止 法 的 基本 实现 : 


from sklearn.base import clone 


sgd_reg = SGDRegressor(n_iter=1, warm_start=True, penalty=None, learning_rate="co 


nstant", eta0=0.0005) 


minimum_val_error = float("inf") 


best_epoch = None 


best_model = None 


for epoch in range(1000): 


sgd_reg.fit(X_train_poly_scaled, y_train) # continues where it left off 


y_val_predict = sgd_reg.predict(X_val_poly_scaled) 


val_error = mean_squared_error(y_val_predict, y_val) 


if val_error < minimum_val_error: 


minimum_val_error = val_error 


best_epoch = epoch 


best_model = clone(sgd_reg) 


注意 ， 当 warm_start=True 时 ， 调 用 fit O 方法 ， 会 从 停 下 的 地 方 继续 开 
台 训 练 ， 而 不 会 重新 开始 。 
逻辑 回归 


正如 第 1 章 中 提 到 过 的 ， 一 些 回归 算法 也 可 用 于 分 类 UR ZIMA) 9 iB 
辑 回 归 (Logistic 回 归 ， 也 称 为 罗 吉 思 回 归 ) 被 广泛 用 于 估算 一 个 实例 
属于 某 个 特定 类 别 的 概率 。 (比如 ， 这 封 电 子 邮件 属于 垃圾 邮件 的 概 
率 是 多 少 ? ) 如 果 预 估 概 率 超过 50%， 则 模型 预测 该 实例 属于 该 类 别 
KER, WEKT) ， 反 之 ， 则 预测 不 是 (也 就 是 负 类 ， 标 记 

为 “0”) 。 这 样 它 束 成 了 一 个 二 元 分 类 器 。 

概率 估算 

所 以 它 是 怎么 工作 的 呢 ? 跟 线 性 回归 模型 一 样 ， 逻 辑 回归 模型 也 生计 
算 输入 特征 的 加 权 和 (加 上 偏 置 项 ， 但 是 不 同 于 线性 回归 模型 直接 
输出 结果 ， 它 输出 的 是 结果 的 数理 逻辑 (参见 公式 4-13) 。 

公式 4-13: 逻辑 回归 模型 概率 估算 (向 量化 形式 ，) 


p =h,(x) =a(0 °x) 


sri eae ee RA aoe ee el 


(-) ， 它 的 输出 为 一 个 0 到 1 之 间 的 数字 。 定 义 如 公式 4-14 和 图 4-21 所 


公式 4-14: 逻辑 函数 


a(t) l 


~ 1 +exp(-t) 


图 4-21: 逻辑 函数 


一 旦 逻辑 回归 模型 估算 出 实例 x 属 于 正 类 的 概率 六 =h。(x) ， 就 可 以 
轻松 做 出 预测 》 ( 见 公式 4-15) ° 


公式 4-15: 逻辑 回归 模型 预测 


po O(P < 0.5) 
1(p =0.5) 


注意 ， 当 t<0 时 ，o (t) <0.5; 4tcomt, o (t) >0.5°。 所 以 如 果 9T.x 是 
正 类 ， 人 逻辑 回归 模型 预测 结果 是 1， 如 果 是 人 负 类 ， 则 预测 为 0。 


训练 和 成 本 函数 


现在 你 知道 逻辑 回归 模型 是 如 何 估算 概率 并 做 出 预测 了 。 但 是 要 怎么 
训练 呢 ? 训练 的 目的 就 是 设置 参数 向 量 6， 使 模型 对 正 类 实例 做 出 高 概 
率 估 算 (y=1) ， 对 负 类 实例 做 出 低 概率 估算 (y=0) 。 公 式 4-16 所 示 
为 单个 训练 实例 x 的 成 本 函数 ， 正 说 明了 这 一 点 。 


公式 4-16: 单个 训练 实例 的 成 本 函数 


P ) (y = 1) 
-log(l -p) (y =0) 


这 个 成 本 函数 是 有 道理 的 ， 因 为 当 t 接 近 于 0 时 ，-log (t) 会 变 得 非常 

大 ， 所 以 如 果 模 型 估算 一 个 正 类 实例 的 概率 接近 于 0， 成 本 将 会 变 得 很 
高 。 同 理 估算 出 一 个 负 类 实例 的 概率 接近 1， 成 本 也 会 变 得 非常 高 。 那 
么 反 过 来 ， 当 t 接 近 于 1 的 时 候 ，-log © 接近 于 0， 所 以 对 一 个 负 类 实 
例 估 算出 的 概率 接近 于 0， 对 一 个 正 类 实例 估算 出 的 概率 接近 于 1， 而 
成 本 则 都 接近 于 0， 这 不 正好 是 我 们 想 要 的 吗 ? 


整个 训练 集 的 成 本 函数 即 为 所 有 训练 实例 的 平均 成 本 。 它 可 以 记 成 一 
个 单独 的 表达 式 (可 以 轻松 验证 ) ， 如 公式 4-17 所 示 ， 这 个 函数 被 称 为 
logi R EKZ ° 


公式 4-17: 逻辑 回归 成 本 函数 (log 损失 函数 ) 


| f l Ali l A(i 
J(6) =-= Y [y"log(p") + (= y"")log( =p") 
Lal 


但 是 坏 消 息 是 ， 这 个 函数 没有 已 知 的 闭 式 方程 (不 存在 一 个 标准 方程 
的 等 价 方程 ， 来 计算 出 最 小 化 成 本 函数 的 9 值 。 而 好 消息 是 ， 这 古 个 凸 
函数 ， 所 以 通过 梯度 下 降 (或 是 其 他 任意 优化 算法 ) 保证 能 够 找 出 全 
局 最 小 值 《只 要 学 习 率 不 是 太 高 ， 你 又 能 长 时 间 等 待 ) 。 公 式 4-18 给 出 
了 成 本 函数 关于 第 j 个 模型 参数 0j 的 俩 导数 方程 。 


公式 4-18: Logistic 成 本 函数 的 偏 导数 


gl “Yio ol?) -y a” 


公式 4-18 与 公式 4-5 看 起 来 非常 相似 : 计算 出 每 个 实例 的 预测 误差 ， 并 
将 其 乘 以 第 j 个 特征 值 ， 然 后 再 对 所 有 训练 实例 求 平 均值 。 一 旦 你 有 了 
包含 所 有 偏 导 数 的 梯度 向 量 就 可 以 使 用 梯度 下 降 算法 了 。 束 是 这 样 ， 
现在 你 知道 如 何 训 练 逻辑 模型 了 。 对 随机 梯度 下 降 ， 一 次 使 用 一 个 实 
例 ， 对 小 批量 梯度 下 降 ， 一 次 使 用 一 个 小 批量 。 


决策 边界 


这 里 我 们 用 竟 尾 植物 数据 集 来 说 明 逻 辑 回归 。 这 是 一 个 非常 著名 的 数 
据 集 ， 共 有 150 宁 高 尾 花 ， 分 别 来 目 三 个 不 同 品 种 : Setosa®s EHE ` 
Versicolor 苞 尾 花 和 Virginica 萝 尾 花 ， 数 据 里 包含 花 的 萝 片 以 及 花 斩 的 长 
度 和 宽度 ( 见 图 4-22) ° 


wh is Versicolor 


iA 


Virginica "(IFO h Setosa 


图 4-22: = FRAN el Pa S 7 | 


RANA TE a EXPE, BE — hot RAR tell! Virginica 
FEH o BCI AE: 


>>> from sklearn import datasets 

>>> iris = datasets.load_iris() 

>>> list(iris.keys()) 

['data', 'target_names', 'feature_names', 'target', 'DESCR'] 
>>> X = iris["data"][:, 3:] # petal width 


>>> y = (iris["target"] == 2).astype(np.int) # 1 if Iris-Virginica, else 0 


训练 逻辑 回归 模型 : 


from sklearn.linear_model import LogisticRegression 


log_reg = LogisticRegression() 


log_reg.fit(X, y) 


Fi RA Bt TEAREN EK IANS AE, RA A h 
率 ( 见 图 4-23) ° 


X_new = np.linspace(0, 3, 1000).reshape(-1, 1) 


y_proba = log_reg.predict_proba(X_new) 


plt.plot(X_new, y_proba[:, 1], "g-", label="Iris-Virginica" ) 


plt.plot(X_new, y_proba[:, 0], "b--", label="Not Iris-Virginica" ) 


# + more Matplotlib code to make the image look pretty 


0.0 0.5 1.0 1.5 2.0 2.5 3.0 
ARAR (cm) 


图 4-23: 估算 概率 和 决策 边界 


Virginica EE (三 角形 所 示 ) 的 花 办 宽度 范围 为 1.4~2.5 厘 米 ， 而 其 
他 两 种 营 尾 花 〈 正 方形 所 示 ) 花 办 通常 较 罕 ， 花 办 宽度 范围 为 0.1 一 1.8 
厘米 。 注 意 ， 这 里 有 一 部 分 重 颁 。 对 人 花 办 宽度 超过 2cm 的 花 ， 分 类 器 可 
以 很 有 信心 地 说 它 是 一 示 Virginica 癌 尾 花 (对 该 类 别 输 出 一 个 高 概率 
值 ) ， 对 花 办 宽度 低 于 lcm 以 下 的 ， 也 可 以 胸有成竹 地 说 其 不 是 

(对 “ 非 Virginica 癌 尾 花 > 类别 输 出 一 个 高 概率 值 ) 。 在 这 两 个 极端 之 
间 ， 分 类 器 则 不 太 有 把 握 。 但 是 ， 如 果 你 要 求 它 预测 出 类 别 (使 用 
predict () 方法 而 不 是 predict_proba () 方法 ) ， 它 将 返回 一 个 可 能 性 
最 大 的 类 别 。 也 就 是 说 ， 在 大 约 1.6 厘 米 处 存在 一 个 决策 边界 ， 这 

里 “是 "和 “不 是 ”的 可 能 性 都 是 50%， 如 果 花 准 宽 度 大 于 1.6 厘 米 ， 分 类 器 
就 预测 它 是 Virginica 竟 尾 伦 ， 否 则 就 预测 不 是 “即使 它 没 什么 把 握 ) : 


>>> log_reg.predict([[1.7], [1.5]]) 


array([1, 0]) 


图 4-24 还 是 同样 的 数据 集 ， 但 是 这 次 显示 了 两 个 特征 : TERE BE EAE BUF 
长 度 。 经 过 训练 ， 这 个 逻辑 回归 分 类 器 就 可 以 基于 这 两 个 特征 来 预测 
新 人 花 末 是 否 属于 Virginica 癌 尾 伦 。 虚 线 表 示 模 型 估算 概率 为 50% 的 点 ， 
即 模 型 的 决策 边界 。 注 意 这 里 是 一 个 线性 的 边界 。 QE: 它 是 使 方程 6 
0o+01x1+05x2=0 的 点 x 的 集合 ， 这 个 方程 定义 的 是 一 条 直线 。) 每 条 
平行 线 都 分 别 代表 一 个 模型 输出 的 特定 概率 ， 从 左下 的 15% 到 右上 的 
909%。 根 据 这 个 模型 ， 右 上 线 之 上 的 所 有 花头 ， 都 有 超过 90% 的 概率 属 
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图 4-24: 线性 决策 边界 


与 其 他 线性 模型 一 样 ， 逻 辑 回归 模型 可 以 用 1 ; 或 1, 惩罚 画 数 来 正则 
化 。Scikit-Learmn 默 认 添 加 的 是 ] > EHX ° 


` 控制 Scikit-Learn 的 LogisticRegression 模 型 正则 化 程度 的 超 参 数 不 是 
alpha (其 他 线性 模型 使 用 alpha) ， 而 是 它 的 逆反 : C，C 的 值 越 高 ， 模 
型 正则 化 程度 越 高 。 


Softmax 上 回归 
逻辑 回归 模型 经 过 推广 ， 可 以 直接 支持 多 个 类 别 ， 而 不 需要 训练 并 组 
合 多 个 二 元 分 类 器 〈 如 第 3 章 所 述 ) 。 这 就 是 Softmax 回 归 ， 或 者 叫 多 
元 逻辑 回归 。 


原理 很 和 商 单 : A Softmax E JJA Al A eir h Be 
个 类 别 k 的 分 数 sk (x) ， 然 后 对 这 些 分 数 应 用 softmax 函 数 〈 也 叫 归 一 


化 指数 ) ， 估算 出 每 个 关 别 的 概率 。 你 应 该 很 熟悉 计算 sx (x) 分 数 的 
公式 (公式 4-19) ， 因 为 它 看 起 来 就 跟 线 性 回归 预测 的 方程 一 样 。 


公式 4-19: 类 别 k 的 Softmax 分 数 


g" 
s(x) = ”六 
注意 ， 每 个 类 别 都 有 目 己 特定 的 参数 向 量 6k。 所 有 这 些 向 量 通常 都 作 
为 行 存储 在 参数 窍 孟 9 中 。 


计算 完 实例 x 每 个 类 别 的 分 数 后 ， 就 可 以 通过 Softmax 函 数 (2704-20) 
来 计算 分 数 : 计算 出 每 个 分 数 的 指数 ， 然 后 对 它们 进行 归 一 化 处 理 


( 除 以 所 有 指数 的 总 和 ) 即 得 到 px* ， 也 就 是 实例 属于 类 别 k 的 概率 。 


公式 4-20: SoftmaxE 2X 


天 是 拓 别 的 数量 
s(x) 是 实例 x 每 个 类 别 的 分 数 的 向 量 
:0 (s (x) ) x 是 给 定 的 类 别 分 数 下 ， 实 例 x 属于 类 别 k 的 概率 


跟 逻 辑 回 归 分 类 器 一 样 ，Softmax 回 归 分 类 器 将 倍 算 概 率 值 最 高 的 类 别 
作为 预测 类 别 (也 就 是 分 数 最 高 的 类 别 ) ， 如 公式 4-21 所 示 。 


公式 4-21: Softmax 回 归 分 类 右 预 测 


八 


y = argmax Tisia) h = argmax yig = argmax( 0, 'X) 


rargmaxi& AIPA EAI EE KARAER A 32 AL ° TEI SEL 
里 ， 它 返回 的 是 使 估算 概率 (s (x) ) x 最 大 的 k 的 值 。 


G sofmax 回归 分 类 器 一 次 只 会 预测 一 个 类 刚 (也 就 是 说 ， 它 是 多 类 
别 ， 但 是 不 是 多 输出 ) ， 所 以 它 应 该 仅 适用 于 互 不 的 类 别 之 上 ， 例 如 
植物 的 不 同 种 类 。 你 不 能 用 它 来 识别 一 张 照片 中 的 多 个 人 。 


既然 你 已 经 知道 了 模型 如 何 进行 概率 佑 算 并 做 出 预测 ， 那 我 们 再 来 看 
看 经 么 训练 。 训 练 目 标 是 得 到 一 个 能 对 目标 类 别 做 出 高 概率 估算 的 模 
型 (也 就 是 其 他 类 别 的 概率 相应 要 很 低 ，。 通 过 将 公式 4-22 的 成 本 函数 
(HEA ESC XED 最 小 化 来 实现 这 个 目标 ， 因 为 当 模 型 对 目标 类 别 做 
出 较 低 概率 的 估算 时 ， 会 受到 惩 昼 。 交 文 炉 经 常 被 用 于 衡量 一 组 估算 


aaa 目标 类 别 的 匹配 程度 JSST Pike 2 iA 


公式 4-22: 交叉 炉 成 本 函数 


KO) == 


.如 果 第 i 个 实例 的 目标 类 别 为 k， 则 六 等 于 1， 否 则 为 0。 


注意 ， 当 只 有 两 个 类 别 (K=2) 时 ， 该 成 本 函数 等 价 于 逻辑 回归 的 成 本 
函数 (log 损失 函数 ， 参 见 公式 4-17) ° 


BEM 


XNR TE BEG o (BOI AOR RMR VES, E 
( 晴 、 下 雨 等 ) 有 8 个 ， 那 么 你 可 以 用 3 比特 对 每 个 选项 进行 编码 ， 
为 23=8。 但 是 ， 如 有 果 你 认为 几乎 每 天 都 是 晴天 ， 那 么 ， 对 “晴天 ”用 1 比 
特 (0) ， 其 他 七 个 类 别 用 4 比特 (从 1 开始 ) 进行 编码 ， 显 然 会 更 有 效 
率 一 些 。 ENRI ENERE ER TAES 比特 数 。 如 采 你 
TRA Ba ce EEN, AC MURA STR AAR (tte ELAS 
号 固有 的 不 可 预测 性 ) 。 但 是 如 果 你 的 假设 是 错误 的 (比如 经 常 下 

W) ， 交 义 粹 将 会 变 大 ， 增 加 的 这 一 部 分 我 们 称 之 为 KL 散 度 
(Kullback-Leibler divergence, tH /EXEXTIR) 。 


两 个 概率 4 2 (P, q) =-2Zxp (x) logq 
(x) 《至 少 在 离散 分 布 时 可 以 这 样 定义 ) 。 


公式 4-23 给 出 了 该 成 本 函数 关于 901 的 梯度 疝 量 : 
公式 4-23: IFA AVKAI AC OE EE a] 


m 


l A (i i i 
Va (0) => (py - yy") x” 
M i=] 


现在 可 以 计算 出 每 个 类 别 的 梯度 向 量 ， 然 后 使 用 梯度 下 降 (或 任意 其 
他 优化 算法 ) 找到 最 小 化 成 本 函数 的 参数 矩阵 9。 


我 们 来 使 用 Softmax 回 归 将 高 尾 花 分 为 三 类 。 当 用 两 个 以 上 的 类 别 训练 

时 ，Scikit-Learn 的 LogisticRegressio 默 认 选 择 使 用 的 是 一 对 多 的 训练 方 

式 ， 不 过 将 超 参 数 multi_ class 设置 为 "multinomial"， 可 以 将 其 切换 成 

Softmax 回 归 。 你 还 必须 指定 一 个 支持 Softmax 回 归 的 求解 器 ， 比 

4 ‘Ibfes" fas ( 详 见 Scikit-Learn 文 档 ) 。 默 认 使 用 12 正 则 化 ， 你 可 以 
通过 超 参 数 C 进 行 控 制 。 


X = iris["data"][:, (2, 3)] # petal length, petal width 


y = iris["target"] 


softmax_reg = LogisticRegression(multi_class="multinomial", solver="l1bfgs", C=10) 


softmax_reg.fit(X, y) 


所 以 当 你 下 次 碰 到 一 朱 瘟 尾 伦 ， 花 办 长 5 厘米 宽 2 厘 米 ， 你 天 可 以 让 模 
型 告诉 你 它 的 种 类 ， 它 会 回答 说 : 94.2% 的 概率 是 Virginica 营 尾 花 (第 2 
R) 或 者 5.8% 的 概率 为 Versicolor 况 尾 花 : 


>>> softmax_reg.predict([[5, 2]]) 


array([2]) 


>>> softmax_reg.predict_proba([[5, 2]]) 


array([[ 6.33134078e-07, 5.75276067e-02, 9.42471760e-01]]) 


图 4-25 展 现 了 由 不 同 背 景色 表示 的 决策 边界 。 注 意 ， 任 何 两 个 类 别 之 间 
的 决策 边界 都 是 线性 的 。 图 中 的 折线 表示 属于 Versicolor 襄 尾 花 的 概率 

(例如 ， 标 记 为 0.45 的 线 代表 45% 的 概率 边界 ) 。 注 意 一 点 ， 该 模型 预 
测 出 的 类 别 ， 其 估算 概率 有 可 能 低 于 50%， 比 如 ， 在 所 有 决策 边界 相交 
的 地 方 ， 所 有 类 别 的 估算 概率 都 为 33%。 


th 
x, q || 4 Virginica $Ë 
S u a Versicolor ÈR 
RIS o 0 Setosa RË 


图 4-25: Softmax 回 归 决 策 边界 


[41 对 于 没有 常用 简写 的 成 本 丽 数 ， 通 常用 符号 】 (6) 来 表示 ， 后 面 还 
会 多 次 用 到 这 个 符号 。 所 以 请 通过 上 下 文 来 判断 讨论 的 是 哪个 成 本 本 
[2] 有 关 范 数 的 讨论 请 参考 第 2 章 。 


[3]. 单 位 矩阵 ， 一 个 除了 主 对 角 线 (左上 到 右 下 ) 为 1， 其 他 单元 格 全 
部 为 0 的 方形 矩阵 。 


[A Bee, MRE Ay EH Ridge K i) “sag” KiE ax o BA DLA YY te BE T be 

(sag) 是 梯度 下 降 的 一 种 变 体 。 更 多 详细 信息 请 参考 不 列 颠 可 伦比 亚 
大 学 Mark Schmidt 等 人 的 演示 文稿 Minimizing Finite Sums with the 
Stochastic Average Gradient Algo-rithm”(http://goo.gl/vxVyA2) ° 


[5] 你 可 以 把 不 可 微 的 点 上 的 次 梯度 向 量 想象 为 这 个 点 周围 的 梯度 向 量 
之 间 的 中 间 天 量 。 


[6] .图 搬 转 目 相应 的 维基 百科 页 面 。Virginica 襄 尾 化 的 图 片 出 目 Frank 
Mayfield, Versicolor Š Æ AB] E H D.Gordon E.Robertson, Setosa®% 
尾 化 图 片 来 目 公共 域 。 


练习 

LANAI 的 训练 集 有 超过 百 万 个 特征 ， 你 会 选择 什么 线性 回归 训练 算 
法 ? 

2. 如 朱 你 的 训练 集 里 特征 的 数值 大 小 迎 异 ， 什 么 算法 可 能 会 受到 影响 ? 
受 影响 程度 如 何 ? 你 应 该 怎么 做 ? 

3. 训 练 逻辑 回归 模型 时 ， 梯 度 下 降 是 否 会 困 于 局 部 最 小 值 ? 


ee 所 有 的 梯度 下 降 算 法 是 不 是 最 终 会 产生 相同 的 
A? 


5. 假 设 你 使 用 的 是 批量 梯度 下 降 ， 并 且 每 一 轮训 练 都 绘制 出 其 验证 误 
人 a a 可 能 发 生 了 什么 ? 你 如 何 解决 这 个 
问题 ? 


6. 当 验证 误差 开始 上 升 时 ， 立 刻 停止 小 批量 梯度 下 降 算 法 训练 是 否 为 一 
个 好 主意 ? 


7. 哪 种 梯度 下 降 算 法 (所 有 我 们 讨论 过 的 能 最 快 到 达 最 优 解 的 附近 ? 
哪 种 会 收敛 ? 如 何 使 其 他 算法 同样 收敛 ? 


8. 假 设 你 使 用 的 是 多 项 式 回 归 ， 绘 制 出 学 习 曲 线 ， 你 发 现 训 练 误差 和 验 
证 误差 之 间 存 在 很 大 的 闺 距 。 发 生 了 什么 ? 哪 三 种 方法 可 以 解决 这 个 


[Fi el’? 


9. 假 设 你 使 用 的 是 岭 回归 ， 你 注意 到 训练 误差 和 验证 误差 几乎 相等 ， 并 
且 非 常 高 。 你 认为 模型 是 高 方差 还 是 高 偏差 ? 你 应 该 提高 还 是 降低 正 
则 化 超 参数 ? 


10. 你 为 何 要 使 用 : 

- 岭 回 归 而 不 是 线性 回归 ? 
-Lasso 回 归 而 不 是 岭 回 归 ? 
“弹性 网 络 而 不 是 Lasso 回 归 ? 


11. 如 采 你 想 将 图 片 分 类 为 户外 /室内 以 及 日 天 /黑夜 。 你 应 该 实现 两 个 逻 
辑 回归 分 类 器 还 是 一 个 Softmax 回 归 分 类 厂 ? 


12. 用 Softmax 回 归 进 行 批量 梯度 下 降 训 练 ， 并 实施 早期 停止 法 (不 使 用 
Scikit-Learn) 。 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 
Bot SCRA AL 


支持 向 量 机 〈 简 称 SVM) 是 一 个 功能 强大 并 且 全 面 的 机 器 学 习 模 型 ， 

它 能 够 执行 线性 或 非 线性 分 类 、 回 归 ， 甚 至 是 异常 值 检测 任务 。 它 是 
机 器 学 习 领 域 最 受 欢 迎 的 模型 之 一 ， 任 何 对 机 器 学 习 感 兴趣 的 人 都 应 
该 在 工具 箱 中 配备 一 个 。SVM 符 别 适用 于 中 小 型 复杂 数据 集 的 分 类 。 
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线性 SVM 分 类 


SVM 的 基本 思想 可 以 用 一 些 图 来 说 明 。 图 5-1 所 示 的 数据 集 来 自 第 4 章 
末尾 引用 的 总 尾 花 数据 集 的 一 部 分 。 两 个 类 别 可 以 轻松 地 被 一 条 直线 

(它们 是 线性 可 分 离 的 ) 分 开 。 左 图 显示 了 三 种 可 能 的 线性 分 类 器 的 
决策 边界 。 其 中 虚线 所 代表 的 模型 表现 非常 糟糕 ， 甚 至 都 无 法 正确 实 
现 分 类 。 其 余 两 个 模型 在 这 个 训练 集 上 表现 堪 称 完美 ,但 是 它们 的 决 
策 边界 与 实例 过 于 接近 ， 导 致 在 面 对 新 实例 时 ， 表 现 可 能 不 会 太 好 。 


相 比 之 下 ， 右 图 中 的 实 线 代 表 SVM 分 类 咒 的 决策 边界 ， 这 条 线 不 仅 分 
离 了 两 个 类 别 ， 并 且 尽 可 能 远离 了 最 近 的 训练 实例 。 你 可 以 将 SVM 分 
类 器 视 为 在 类 别 之 间 拟 合 可 能 的 最 宽 的 街道 (平行 的 虚线 所 示 ) 。 
此 这 也 叫 作 大 间隔 分 类 (large margin classification) ° 
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图 5-1: 大 间隔 分 类 


请 注意 ， 在 街道 以 外 的 地 方 增加 更 多 训练 实例 ， 不 会 对 决策 边界 产生 
有 影响， 也 就 是 说 它 完 全 由 位 于 街道 边缘 的 实例 所 决定 (或 者 称 之 为 “ 文 
持 ”) 。 这 些 实例 被 称 为 支持 向 量 〈 在 图 5-1 中 已 圈 出 ) 。 


FB. syM 对 特征 的 缩放 非常 敏感 如 图 5-2 所 示 ， 在 左 图 中 ， 垂 直 刻 度 
比 水 平 刻 度 大 得 多 ， 因 此 可 能 的 最 宽 的 街道 接近 于 水 平 。 在 特征 缩放 
o Scikit-Learm 的 StandardScaler) 后 ， 决 策 边 界 看 起 来 好 很 多 
见 右 图 ) ° 
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图 5-2: 对 特征 缩放 的 敏感 度 
软 间 隅 分 类 


如 果 我 们 严格 地 让 所 有 实例 都 不 在 街道 上 ， 并 且 位 于 正确 的 一 边 ， 这 
就 是 硬 间隔 分 类 。 硬 间隔 分 类 有 两 个 主要 问题 ， 首 先 ， 它 只 在 数据 是 
线性 可 分 离 的 时 候 才 有 效 ， 其 次 ， 它 对 异常 值 非常 敏感 。 图 5-3 显 示 了 
有 一 个 额外 异常 值 的 访 尾 花 数据 ， 左 图 的 数据 根本 找 不 出 硬 间 隔 ， 而 
右 图 最 终 显示 的 决策 边界 与 我 们 在 图 5-1 中 所 看 到 的 无 异常 值 时 的 决策 
边界 也 大 不 相同 ， 可 能 无 法 很 好 地 泛 化 。 
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图 5-3: 人 硬 间 隔 对 异常 值 的 敏感 度 


要 避 负 这些 问题 ， 最 好 使 用 更 灵活 的 模型 。 目 标 是 尽 可 能 在 保持 街道 
视 阔 和 限制 间隔 违例 “即位 于 街道 之 上 ， 甚 至 在 错误 的 一 边 的 实例 ) 
之 间 找 到 民 好 的 平衡 ， 这 融 是 软 间隔 分 类 。 


在 Scikit-Learn 上 时 SVM 类 中 ， 可 以 通过 超 参数 C 来 控制 这 个 平衡 : C 值 越 
小 ， 则 街道 越 宽 ， 但 站 间隔 违例 也 会 越 多 。 网 5-4 显 示 了 在 一 个 非 线 性 
可 分 离 数 据 集 上 ， 两 个 软 间 隔 SVM 分 类 器 各 自 的 决策 边界 和 间隔 。 左 
边 使 用 了 高 C 值 ， 分 类 器 的 间隔 违例 较 少 ， 但 是 间隔 也 较 小 。 右 边 使 用 
了 低 C 值 ， 间 隅 大 了 很 多 ， 但 是 位 于 街道 上 的 实例 也 更 多 。 看 起 来 第 二 
个 分 类 亏 的 泛 化 效果 更 好 ， 因 为 大 多 数 间隔 违例 实际 上 都 位 于 决策 边 
界 正确 的 一 边 ， 所 以 即便 是 在 该 训练 集 上 ， 它 做 出 的 错误 预测 也 会 更 


少 。 
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图 5-4: 较 少 间 隅 违例 和 大 间隔 对 比 
如 果 你 的 SVM 模 型 过 度 拟 合 ， 可 以 试 试 通过 降低 C 来 进行 正则 化 。 
下 面 这 段 Scikit-Leam 人 代码 : 加载 高 尾 化 数据 集 ， 缩 放 特 征 ， 然 后 训练 


一 个 线性 SVM 模型 (使 用 LinearSVC 类 ，C=0.1， 用 即将 介绍 的 hinge 损 
失 画 数 ) 用 来 检测 Virginica 药 尾 花 。 得 到 的 模型 如 图 5-4 右 图 所 示 。 


import numpy as np 


from sklearn import datasets 


from sklearn.pipeline import Pipeline 


from sklearn.preprocessing import StandardScaler 


from sklearn.svm import LinearSVC 


iris = datasets.load_iris() 


x = iris["data"][:, (2, 3)] # petal length, petal width 


y = (iris["target"] == 2).astype(np.float64) # Iris-Virginica 


svm_clf = Pipeline( ( 
("scaler", StandardScaler()), 


("linear_svc", LinearSVC(C=1, loss="hinge")), 


svm_clf.fit(xX_scaled, y) 
然后 ， 按 照 惯 例 ， 你 可 以 用 模型 做 出 预测 : 


>>> svm_clf.predict([[5.5, 1.7]]) 


array([ 1.]) 


eee nie SVM 分 类 器 不 会 输出 每 个 类 别 的 概 
或 者 ， 你 还 可 以 选择 SVC 类 ， 使 用 SVC (kernel="linear", C=1) ,但 是 
这 要 慢 得 多 ， 特 别 是 对 于 大 型 训练 集 而 言 ， 因 此 不 推荐 使 用 。 另 一 个 
选择 是 SGDClassifier 类 ， 使 用 SGDClassifier (loss="hinge", alpha=1/ 
(m*C) ) 。 这 适用 于 常规 随机 梯度 下 降 (参见 第 4 章 ) 来 训练 线性 
SVM 分 类 屡 。 它 不 会 像 LinearSVC 类 那样 快速 收敛 ， 但 是 对 于 内 存 处 理 
不 了 的 大 型 数据 集 〈 核 外 训练 ) 或 是 在 线 分 类 任务 ， 它 非常 有 效 。 


A LinearSVCR AX (i UAT EL, Br ne BCA PPL, 
使 训练 集 集 中 。 如 果 使 用 StandardScaler 会 自动 进行 这 一 步 。 此 外 ， 请 
确 你 超 参数 loss 设 置 为 minge"， 因 为 它 不 是 稚 认 值 。 最 后 ， 为 了 获得 更 
好 的 性 能 ， 还 应 该 将 超 参数 dual 设 置 为 False， 除 非特 征 数 量 比 训练 实例 
还 多 〈 本 章 后 文 将 会 讨论 ) 


非 线性 SVM 分 类 


虽然 在 许多 情况 下 ， 线 性 SVM 分 类 器 是 有 效 的 ， 并 且 通 常 出 人 意料 的 
好 ， 但 是 ， 有 很 多 数据 集 远 不 是 线性 可 分 离 的 。 处 理 非 线性 数据 集 的 
方法 之 一 是 添加 更 多 特征 ， 比 如 多 项 式 特征 (如 第 4 章 所 述 ) ， 某 些 情 
况 下 ， 这 可 能 导致 数 据 集 变 得 线性 可 分 离 。 参 见 图 5-5 的 左 图 ， 这 是 一 
个 简单 的 数据 集 ， 只 有 一 个 特征 x; ， 可 以 看 出 ， 数 据 集 线 性 不 可 分 。 
但 是 如 果 添加 第 二 个 特征 x ,= (x 1) ?， 生 成 的 2D 数 据 集 则 完全 线性 
可 分 离 。 


图 5-5: 通过 添加 特征 使 数据 集 线 性 可 分 离 


要 使 用 Scikit-Leam 实 现 这 个 想法 ， 可 以 搭建 一 条 流水 线 : 一 个 
PolynomialFeatures 转 换 器 ， 接 着 一 个 StandardScaler， 然 后 是 


LinearSVC。 我 们 用 卫星 数据 集 来 测试 一 下 ( 见 图 5-6) 


from sklearn.datasets import make_moons 
from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import PolynomialFeatures 
polynomial_svm_clf = Pipeline(( 
("poly_features", PolynomialFeatures(degree=3) ), 
("scaler", StandardScaler()), 
("svm_clf", LinearSVC(C=10, loss="hinge") ) 


)) 


polynomial_svm_clf.fit(X, y) 


图 5-6: H SSP EW AR PELVM 2 Ras 


多 项 式 核 


添加 多 项 式 特 征 实现 起 来 非常 简单 ， 并 且 对 所 有 的 机 器 学 习 算法 (不 
只 是 SVM) 都 非常 有 效 。 但 问题 是 ， 如 果 多 项 式 太 低 阶 ， 处 理 不 了 非 
币 复 洒 的 数据 集 ， 而 蜗 阶 则 会 创造 出 六 量 的 特征 ， 有 导致 借 型 变 得 六 


st 


幸运 的 是 ， 使 用 SVM 时 ， 有 一 个 魔术 般 的 数学 技巧 可 以 应 用 ， 这 就 是 
核 技 巧 〈 稍 后 解释 ) 。 它 产生 的 结果 束 跟 添加 了 许多 多 项 式 特 征 ， 其 
至 是 非常 高 阶 的 多 项 式 特征 一 样 ， 但 实际 上 并 不 需要 真 的 添加 。 因 为 
实际 没有 添加 任何 特征 ， 所 以 也 束 不 存在 数量 爆炸 的 组 合 符 征 了 。 这 
个 技巧 由 SVC 类 来 实现 ， 我 们 看 看 在 卫星 数据 集 上 的 测试 : 


from sklearn.svm import SVC 
poly_kernel_svm_clf = Pipeline(( 
("scaler", StandardScaler()), 
("svm_clf", SvC(kernel="poly", degree=3, coef0=1, C=5)) 
) ) 


poly_kernel_svm_clf.fit(X, y) 


这 上 段 代 码 使 用 了 一 个 3 阶 多 项 式 内 核 训练 SVM 分 类 侨 。 如 图 5-7 的 左 图 
所 示 。 而 右 图 是 为 一 个 使 用 了 10 阶 多 项 式 核 的 SVM 分 类 占 。 显 然 ， 如 
果 模 型 过 度 拟 合 ， 你 应 该 降低 多 项 式 阶 数 ， 反 过 来 ， 如 采 拟 合 不 足 ， 
则 可 以 党 试 使 之 提升 。 超 参数 coef0 控 制 的 是 模型 受 高 阶 多 项 式 还 是 低 
阶 多 项 式 影响 的 程度 。 


d=3,r=1,C=5 ; d=10,7=100,C=5 
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图 5-7: 多 项 式 核 的 SVM 分 类 塘 


G 寻 技 正确 的 超 参 数值 的 党 用 方法 是 网 格 搜索 ( 见 第 2 章 ) 。 先 进行 
一 次 粗略 的 网 格 搜 索 ， 然 后 在 最 好 的 值 附近 展开 一 轮 更 精细 的 网 格 搜 
索 ， 这 样 通 闸 会 快 一 些 。 多 了 解 每 个 超 参 数 实 际 上 是 用 来 做 什么 的 ， 
有 助 于 你 在 超 参 数 空间 层 正 确 搜 索 。 


添加 相似 特征 


解决 非 线性 问题 的 另 一 种 技术 是 添加 相似 特征 。 这 些 特征 经 过 相似 函 

数 计算 得 出 ， 相 似 函 数 可 以 测量 每 个 实例 与 一 个 特定 地 标 landmark) 

之 间 的 相似 度 。 以 前 面 提 到 过 的 一 维 数 据 集 为 例 ， 在 x; =-2 和 x | =1 处 添 
加 两 个 地 标 〈 见 图 5-8 中 的 左 图 ) 。 接 下 来 ， 我 们 采用 高 斯 径 向 基 范 数 
(RBF) 作为 相似 函数 ，y=0.3 ( 见 等 式 5-1) 


公式 5-1， 高 斯 RBF 


by(x,€) = exp(-y| |x - ¢||’) 


这 是 一 个 从 0 〈 离 地 标 差 得 非常 远 ) 到 1 ( 跟 地 标 一 样 ， 变 化 的 钟 形 画 

数 。 现 在 我 们 准备 计算 新 特征 。 例 如 ， 我 们 看 实例 x1 =-1: 它 与 第 一 个 
地 标的 距离 为 1， 与 第 二 个 地 标的 距离 为 2。 因 此 它 的 新 特征 为 x =eps 

(-0.3x1?) 20.74，x3=eps (-0.3x2?) s0.30。 图 5-8 的 右 图 显示 了 转换 
， (去 除了 原始 特征 ) ， 现 在 你 可 以 看 出 ， 数 据 呈 线性 可 分 
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图 5-8: 使 用 高 斯 RBF 的 相似 特征 


你 可 能 想 问 怎么 选择 地 标 呢 ? 最 简单 的 方法 是 在 数据 集 里 每 一 个 实例 
的 位 置 上 创建 一 个 地 标 。 这 会 创造 出 许多 维度 ， 因 而 也 增加 了 转换 后 
的 训练 集 线 性 可 分 离 的 机 会 。 缺 点 是 ， 一 个 有 m 个 实例 n 个 特征 的 训练 
集会 被 转换 成 一 个 m 个 实例 m 个 特征 的 训练 集 (假设 抛弃 了 原始 特 
征 ) 。 如 果 训 练 集 非常 大 ， 那 就 会 得 到 同样 大 数量 的 特征 。 


高 期 RBF 核 函数 
与 多 项 式 特 征 方法 一 样 ， 相 似 特征 法 也 可 以 用 任意 机 器 学 习 算法 ， 但 
征 要 计算 出 所 有 附加 特征 ， 其 计算 代价 可 能 非常 昂 贯 ， 万 其 是 对 大 型 
训练 集 来 说 。 然 而 ， 核 技巧 再 一 次 施展 了 它 的 SVM 魔术 : 它 能 够 产生 
的 结果 就 跟 添加 了 许多 相似 特征 一 样 ， 但 实际 上 也 并 不 需要 添加 。 我 
们 来 使 用 SVC 类 试 试 高 斯 RBF 核 : 

rbf_kernel_svm_c1f = Pipeline( ( 


("scaler", StandardScaler()), 


("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001) ) 


)) 


rbf_kernel_svm_clf.fit(X, y) 


图 5-9 的 左下 方 显 示 了 这 个 模型 。 其 他 图 显示 了 超 参数 gamma () 和 C 
使 用 不 同 值 时 的 模型 。 增 加 gamma 值 会 使 钟 形 曲线 变 得 更 罕 (图 5-8 的 
AR) ， 因 此 每 个 实例 的 影响 范围 随 之 变 小 : 决策 边界 变 得 更 不 规 
则 ， 开 始 围 独 单个 实例 统 变 。 反 过 来 ， 减 小 gamma 值 使 钟 形 曲线 变 得 
更 宽 ， 因 而 每 个 实例 的 影响 范围 增 大 ， 决 策 边 界 变 得 更 平坦 。 所 以 束 
像 是 一 个 正则 化 的 超 参 数 : 模型 过 度 拟 合 ， 就 降低 它 的 值 ， 如 有 果 拟 合 
不 足 则 提升 它 的 值 类似 超 参数 C) ° 

还 有 一 些 其 他 较 少 用 到 的 核 男 数 ， 例 如 专门 针对 特定 数据 结构 的 核 函 
数 。 字 符 串 核 常 用 于 文本 文档 或 是 DNA 序 列 (如 使 用 字符 串 子 序列 核 
或 是 基于 莱 文 斯 坦 距离 的 核 范 数 ) 的 分 类 。 


1.0 -]. = 

-15 -1.0 -0.5 00 05 10 15 20 25 -15 -10 -05 00 05 10 15 20 25 
x, x; 

y=5, C=0.001 y=5, C=1000 


1.0 -1.0 - ! 
-15 -10 -05 00 05 10 15 20 25 -15 -10 -05 00 05 10 15 20 25 
ži ti 


图 5-9: 使 用 RBF 核 的 SVM 分 类 器 


~ 有 这 么 多 的 核 画 数 ， 该 如 何 决 定 使 用 哪 一 个 呢 ? 有 一 个 经 验 法 则 
是 ， 永 远 先 从 线性 核 函 数 开始 尝试 《要 记 住 ，LinearSVC 比 SVC 


(kernel="linear") 快 得 多 ) ， 特 别 是 训练 集 非常 大 或 特征 非常 多 的 时 
候 。 如 果 训 练 集 不 太 大 ， 你 可 以 试 试 高 斯 RBF 核 ， 大 多 数 情况 下 它 都 
非常 好 用 。 如 琳 你 还 有 和 多余 的 时 间 和 计算 能 力 ， 你 可 以 使 用 交 义 验证 
和 网 格 搜 索 来 壬 试 一 些 其 他 的 核 贸 数 ， 特 别 是 那些 专 | ] 针 对 你 的 数据 


集 数 据 结构 的 核 函 数 。 
计算 复杂 度 


liblinear 库 为 线性 SVM 实现 了 一 个 优化 算法 ，HLLinearSVC 正 是 基于 该 
库 的 。 这 个 算法 不 文 持 核 技巧 ， 不 过 它 与 训练 实例 的 数量 和 特征 数量 
几乎 呈 线 性 相关 : 其 训练 时 间 复 杂 度 大 致 为 0 (mxn) 。 


如 采 你 想 要 非常 高 的 精度 ， 算 法 需要 的 时 间 更 长 。 它 由 容 差 超 参 数 
À eel 来 控制 。 大 多 数 分 类 任务 中 ， 黑 认 的 容 差 就 
y fe} 


SVC 则 是 基于 libsvm 库 的 ， 这 个 库 的 算法 文 持 核 技巧 。 训练 时 间 复 
杂 度 通常 在 O (m2xn) FIO (m3xn) 之 间 。 很 不 伴 ， 这 意味 着 如 果 训 
练 实例 的 数量 变 大 (例如 上 十 万 个 实例 ) ， 它 将 会 慢 得 可 怕 ， 所 以 这 
个 算法 完美 适用 于 复杂 但 是 中 小 型 的 训练 集 。 但 是 ， 它 还 是 可 以 良好 
适应 地 特征 数量 的 增加 ， 特 别 是 应 对 黎 朴 特征 ( 即 ， 每 个 实例 仅 有 少 
量 的 非 零 特 征 ) 。 在 这 种 情况 下 ， 算 法 复杂 度 大 致 与 实例 的 平均 非 零 
特征 数 成 比例 。 表 5-1 比 较 了 Scikit-Learn 的 SVM 分 类 器 类 别 。 


表 5-1: 用 于 SVM 分 类 的 Scikit-Learn 类 的 比较 


类 时 间 复 杂 度 Pax BARREN ARIJ 
LinearSVC O(m Xn) f 是 个 
S@Classifier O(mXn) 时 是 f 
SVC O(n? Xn)to O(n? Xn) E 是 E 


[1]“ 针 对 大 型 线性 SVM 的 双 坐 标 下 降 法 ”(“A Dual Coordinate Descent 
Method for Large-scale Linear SVM, ”) ,Lin 等 人 (2008) ° 


[2]“ 序 列 最 小 优化 ”(Sequential Minimal Optimization) , J.Platt(1998) ° 


SVM 回 归 


正如 前 面 提 到 的 ，SVM 算 法 非 钊 全 面 : 它 不 仅 文 持 线 性 和 非 线性 分 
类 ， 而 且 还 支持 线性 和 非 线性 回归 。 诀 窍 在 于 将 目标 反 转 一 下 : 不 再 
征 芝 试 拟 合 两 个 类 别 之 间 可 能 的 最 宽 的 街道 的 同时 限制 间隔 违例 ， 
SVM 回归 要 做 的 是 让 尽 可 能 多 的 实例 位 于 街道 上 ， 同 时 限制 间隔 违例 


(也 就 是 不 在 街道 上 的 实例 ) 。 街 道 的 宽度 由 超 参 数 e 控 制 。 图 5-10 显 
示 了 用 随机 线性 数据 训练 的 两 个 线性 SVM 回归 模型 ， 一 个 间隔 较 大 (e 
=1.5) ， 男 一 个 间隔 较 小 (e=0.5) ° 


€=].5 €=(),5 


5-10: SVM 回归 


ee 所 以 这 个 模型 被 称 为 
不 敏感 。 


你 可 以 使 用 Scikit-Learn 的 LinearSVR 类 来 执行 线性 SVM 回归 。 以 下 代码 
生成 如 图 5-10 左 图 所 示 的 模型 (训练 数据 需要 先 缩放 并 集中 ) : 


from sklearn.svm import LinearSVR 


svm_reg = LinearSVR(epsilon=1.5) 


svm_reg.fit(X, y) 


要 解决 非 线 性 回归 任务 ， 可 以 使 用 核 化 的 SVM 模 型 。 例 如 ， 图 5-11 显 
示 了 在 一 个 随机 二 次 训练 集 上 ， 使 用 二 阶 多 项 式 核 的 ;VM 回归 。 左 图 
几乎 没有 正则 化 (CHIRA) ， 右 图 则 过 度 正 则 化 (CER) ° 


degree=2,C=100, €=0.1 T degree=2,C=0.01, €=0.1 


图 5-11: 使 用 二 阶 多 项 式 核 的 SVM 回 归 
以 下 代码 使 用 Scikit-Learn 的 SVR 类 (支持 核 技 巧 ) 生成 如 图 5-11 左 图 所 
示 的 模型 。SVR 类 是 SVC 类 的 回归 等 价 物 ，LinearSVR 类 也 是 


LinearSVC 类 的 回归 等 价 物 。LinearSVR 与 训练 集 的 大 小 线性 相关 ( 跟 
LinearSVC 一 样 ) ， 而 SVR 则 在 训练 集 变 大 时 ， 变 得 很 慢 (SVC 也 是 一 


from sklearn.svm import SVR 


svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1) 


svm_poly_reg.fit(X, y) 


SVM 也 可 用 于 异常 值 检 测 : 详细 信息 请 参考 Scikit-Learn 文 档 。 


工作 原理 


本 节 将 会 介绍 SVM 如 何 进行 预测 ， 以 及 它们 的 训练 算法 是 如 何 工作 
的 ， 从 线性 SVM 分 类 器 开始 。 如 果 你 刚刚 开始 接触 机 器 学 习 ， 可 以 安 
全 地 跳 过 本 节 ， 直 接 进入 本 章 未 尾 的 练习 ， 等 到 想 要 更 深入 地 了 解 
SVM 时 再 回来 也 不 退 。 

首先 ， 说 明 一 下 符号 ， 在 第 4 章 里 ， 我 们 使 用 过 一 个 约定 一 将 所 有 模 
型 参数 放 在 一 个 向 量 9 中 ， 包 括 偏 置 项 。， 以 及 输入 特征 的 权重 9 e 
,， 同 时 在 所 有 实例 中 添加 偏 置 项 x ,=1。 在 本 章 中 ， 我 们 将 会 使 用 另 一 
个 约定 ， 在 处 理 SVM 时 它 更 为 方便 (也 更 常见 ) : 偏 置 项 表示 为 ， 特 
征 权重 向 量 表示 为 w， 同 时 输入 特征 向 量 中 不 添加 偏 置 特征 。 
决策 画 数 和 预测 


线性 SVM 分 类 人 铝 通 过 人 简单 地 计算 决策 国 数 w T-x+b=w 1X1+...+WnXn+b 


来 预测 新 实例 x 的 分 类 。 如 果 结 果 为 正 ， 则 预测 类 别人 是正 类 (1) ， 
不 然则 预测 其 为 负 类 (0) ， 见 公式 5-2 ° 


公式 5-2: 线性 SVM 分 类 器 预测 


0ifw .x+b <0, 


lifw :x+b=0 


图 5-12 显 示 了 疼 5-4 右 侧 的 模型 所 对 应 的 决 案 函数 : 数据 集 包 含 两 个 特 
征 ( 花 因 宽度 和 长 度 ) ， 所 以 是 一 个 二 维 平面 。 决 策 边 界 是 决策 函数 


|| 


等 于 0 的 点 的 集合 ， 它 是 两 个 平面 的 交集 ， 也 就 是 一 条 直线 (加 粗 实 线 
fim)» Ul 


图 5-12: BS EAE REAR EH BL 


虚线 表示 决策 函数 等 于 1 或 -1 的 点 : 它们 互相 平行 ， 并 且 与 决策 边界 的 
距离 相等 ， 从 而 形成 了 一 个 间隔 。 训 练 线性 SVM 分 类 器 即 意 味 着 找到 
w 和 b 的 值 ， 从 而 使 这 个 间隔 尽 可 能 宽 的 同时 ， 避 免 〈 硬 间隔 ) 或 是 限 
制 ( 软 间隔 间隔 违例 。 


[1]. 更 概括 地 说 ， 当 有 n 个 特征 时 ， 决 策 函 数 是 一 个 n 维 的 超 平 面 ， 决 集 
边界 是 一 个 (n-1) 维 的 超 平 面 。 


训练 目标 


思考 一 下 决策 函数 的 斜率 : 它 等 于 权重 加 量 的 范 数 ， 即 |wll。 如 采 我 们 
将 斜率 除 以 2， 那 么 决策 函数 等 于 +1 的 点 也 将 变 得 离 决策 函数 两 倍 远 。 


也 束 是 说 ， 将 和 料 率 除 以 2， 将 会 使 间隔 乘 以 2。 也 许 2D 图 更 容易 将 其 可 
视 化 ， 见 图 5-13。 权 重 癌 量 w 越 小 ， 间 隅 越 大 。 


ji w=] ‘5 W=0.5 

L5 x 13 ; 

1.0 oo 1.0 tena ned 
05 | 05 po si 
WH 一 一人 一 1 一 一 一 -一 一 一 

-0.5 v4 1, | OY 

1.0 M | -1.0 sya 

l / -15| 一 

20 A -20 

3 0 1 2 3 
Xi “i 


图 5-13: 权重 向 量 越 小 ， 则 隔 越 大 


所 以 我 们 要 最 小 化 ||wll 来 得 到 尽 可 能 大 的 间隔 。 但 是 ， 如 有 我 们 想 避 人 钢 
任何 间隔 违例 ( 硬 间隔 ，， 那 么 束 要 使 所 有 正 类 训练 集 的 决策 函数 大 
于 1， 负 类 训练 集 的 决策 男 数 小 于 -1。 如 果 我 们 定义 ， 实 例 为 负 类 (如 
Ry WW =0) 时 ，t © =-1; 实例 为 正 类 (如 果 y © =1) Bf, t O- 

=1。 那 么 我 们 就 可 以 将 这 个 约束 条 件 表示 为 : 对 所 有 实例 来 说 ，t O 


(WT:x © +b) 21° 


因此 ， 我 们 可 以 将 硬 间隔 线性 SVM 分 类 器 的 目标 ， 看 作 一 个 约束 优化 
问题 ， 如 公式 5-3 所 示 。 


公式 5-3: 便 间 隔 线性 SVM 分 类 器 的 目标 


A 我 们 最 小 化 的 是 w T w2. 它 等 于 ||lw||“/2， 而 不 是 最 小 化 ||lw||。 这 是 
因为 ， 二 者 虽然 会 得 到 同样 的 结果 (因为 让 某 个 值 最 小 的 w 和 b， 同 样 
也 使 其 平方 的 一 半 最 小 ) ,但 是 ||lw||?/2 有 一 个 简单 好 用 的 导数 (就 是 
w) ， 而 ||lw|| 在 w=0 时 ， 是 不 可 微 的 。 优 化 算法 在 可 微 画 数 上 的 工作 效 


要 好 得 多 。 


要 达到 软 间隔 的 目标 ， 我 们 需要 为 每 个 实例 引入 一 个 松弛 变量 Z 久 
>0, U7 (i) 衡量 的 是 第 个 实例 多 大 程度 上 允许 间隔 违例 。 那 么 现在 
我 们 有 了 两 个 互相 冲突 的 目标 : 使 松弛 变量 越 小 越 好 从 而 减少 间 隅 违 
例 ， 同 时 还 要 使 wT-w/2 最 小 化 以 增 大 间隔 。 这 正 是 超 参数 C 的 用 武之 
地 允许 我 们 在 两 个 目标 之 间 权 衡 。 公 式 5-4 给 出 了 这 个 约束 优化 问 
wie 


ES 


公式 5-4: EXIF] PRG PES VM IPR ar H ER 


| ‘ m ; 
小 化 一 w+C ee 
最 | ) ) l 


RE (w ex” 4b) a1- AL” 0l =1,2,m) 


二 次 规划 

硬 间隔 和 软 间隔 问题 都 属于 线性 约束 的 凸 二 次 优化 问题 。 这 类 问题 被 
称 为 二 次 规划 QP) 问题。 要 解决 二 次 规划 问题 有 很 多 现成 的 求解 
器 ， 使 用 到 的 技术 各 不 相同 ， 这 些 不 在 本 书 的 讨论 范围 之 内 。 包 公式 
5-5 给 出 的 是 问题 的 一 般 形式 。 


公式 5-5: 二 次 规划 问题 


最 小 化 BT He pet +p 


使 得 A.p<b 
p-n HM E(n, 为 参数 数量 ) 
再 是 一 个 由 Xn, HE 
Ze fE—hn 维 向 量 
A 是 一 个 nh。 Xn, HE (n, 为 约束 数量 ) 


b 去 一 个 n 维 问 量 


` 


注意 表达 式 A.p<b 实 际 上 定义 了 n 个 约束 : 对 于 i=1, 2, ..., ne, plea 
Yb Ò, Epa O 是 包含 A 的 第 行 元 素 的 向 量 ， 而 b O 是 b 的 第 i 
ne 

DILA ° 


可 以 轻松 验证 一 下 ， 如 琳 你 把 二 次 规划 参数 按 以 下 方式 设置 ， 是 否 能 
够 实现 硬 间隔 线性 SVM 分 类 器 的 目标 : 


ns=n+1， 其 中 n 为 特征 数量 (+1 是 偏 置 项 ) 。 
n.=m， 其 中 m 是 训练 实例 的 数量 。 


Hn, xn ,的 单位 矩阵 ， 但 是 顶 左 单元 格 为 零 (为 了 忽略 偏 置 项 ) 。 


-f=0， 一 个 全 是 0 的 n , 维 向 量 。 
.b=1， 一 个 全 是 1 的 n. 维 向 量 。 


29=-10X0 ， 其 中 广 等 于 x 日 ， 除 了 一 个 额外 的 偏 置 特征 X01 


所 以 ， 要 训练 硬 间 阳线 性 SVM 分 类 紫 ， 有 一 种 办 法 钙 直 接 将 上 面 的 参 
数 用 在 一 个 现成 的 二 次 规划 求解 融 上 。 得 到 的 同 量 p 将 会 包括 偏 置 项 
b=po， 以 及 特征 权重 w;=p;， 二 1，2，...，m。 类 似 地 ， 你 也 可 以 用 二 
次 规划 求解 怖 来 解决 软 间 隔 问题 〈 见 本 章 末 尾 练习 ) 。 


Bæ, 为 了 运用 核 技 巧 ， 接 下 来 我 们 将 要 看 一 个 不 同 的 约束 优化 问 


题 。 
对 俩 问题 


针对 一 个 给 定 的 约束 优化 问题 ， 称 之 为 原始 问题 ， 我 们 利明 可 以 用 轧 
一 个 不 同 的 ， 但 是 与 之 密切 相关 的 问题 来 表达 ， 这 个 问题 我 们 称 之 为 
对 偶 问 题 。 通 昔 来 说 ， 对 偶 问 题 的 解 只 能 算是 原始 问题 的 解 的 下 限 ， 
但 十 在 某 些 情况 下 ， 它 也 可 能 跟 原 始 问题 的 解 完 全 相同 。 季 运 的 是 ， 
SVM 问 题 刚好 就 满足 这 些 条 件 ， 吕 所 以 你 可 以 选择 是 解决 原始 问题 还 
是 对 偶 问 题 ， 二 者 解 相同 。 公 式 5-6 给 出 了 线性 SVM 目标 的 对 偶 形 式 
(如 果 你 对 如 何 从 原始 问题 导出 对 偶 问 题 感 兴趣 ， 请 参阅 附录 C) 。 


公式 5-6: 线性 SVM 目 标的 对 侦 形 式 


| m m | | m m 
最 小 化 二 Fa atx” yl) n F a” 
dm jz! i=] 


Q 


一 旦 得 到 使 得 该 等 式 最 小 化 (使 用 二 次 规划 求解 器 ) 的 向 量 & ， 就 可 
以 使 用 公式 5-7 来 计算 使 原始 问题 最 小 化 的 信和 和》 。 


公式 5-7: 从 对 倘 问 题 到 原始 问题 


当 训 练 实例 的 数量 小 于 特征 数量 时 ， 解 决 对 偶 问 题 比 原 始 问题 更 快 
速 。 更 重要 的 是 ， 它 能 够 实现 核 技巧 ， 而 原始 问题 不 可 能 实现 。 这 个 
ALTE eT AYE? 


核 化 SVM 


假设 你 想 要 将 一 个 二 阶 多 项 式 转换 为 一 个 二 维 训练 集 (例如 卫星 训练 
集 ) ， 然 后 在 转换 训练 集 上 训练 线性 SVM 分 类 器 。 这 个 二 阶 多 项 式 的 
映射 画 数 如 公式 5-8 所 示 。 


公式 5-8: 二 阶 多 项 式 映射 


2 
Xi 


b(x) = ¢ E V2X Wo 


注意 转换 后 的 癌 量 是 三 维 的 而 不 是 二 维 的 。 现 在 我 们 来 看 看 ， 如 果 我 
们 应 用 这 个 二 阶 多 项 式 映射 ， 两 个 二 维 向 量 a 和 b 会 发 生 什么 变化 ， 然 
后 计算 转换 后 两 个 向 量 的 点 积 (参见 公式 5-9) 。 


公式 5-9: 二 阶 多 项 式 映 射 的 核 技巧 


a; l bi 
la) + (Db) = Na by | Ab i |= abi + 2a,b ab, + ab; 
10 19, 
a b; 
gy by 
= (uh +a) =|" | | = (a! +b)! 
a,’ \b, 


EARE PARRAS TRARA: ? (a) 1? 
(b) = (aT-b) 2° 


关键 点 来 了 ， 如 果 将 转换 映射 风 应 用 于 所 有 训练 实例 ， 那 么 对 偶 问 是 
(公式 5-6) 将 包含 点 积 0) T. QO) ite mR? 
T. UG) 2 
是 公式 5-8 所 定义 的 二 阶 多 项 式 转换 ， 那 么 可 以 直接 用 (X” * x) 来 
替代 这 个 转换 疝 量 的 点 积 。 所 以 你 根本 不 需要 转换 训练 实例 ， 只 需 将 
公式 5-6 里 的 点 积 换 成 点 积 的 平方 即 可 。 如 果 你 不 嫌 麻 烦 ， 可 以 动手 将 
训练 集 进行 转换 ， 然 语 拟 合 线性 SVM 算法 ， 你 会 发 现 ， 结 时 一 模 一 
样 。 但 是 这 个 技巧 大 大 提高 了 整个 过 程 的 计算 效率 。 这 就 是 核 技巧 的 


本 质 a 

BRAK (a, b) = (aT.b) ?被 称 为 二 阶 多 项 式 核 。 在 机 器 学 习 里 ， 核 
是 能 够 仅 基于 原始 向 量 a 和 b 来 计算 点 积 《 (a) T-P (b) WRR, € 
不 需要 计算 (甚至 不 需要 知道 ) 转换 画 数 。 公 式 5-10 列 出 了 一 些 最 
常用 的 核 画 数 。 


公式 5-10: HS ARK EN EL 


BER GR: K(a,b) = a +b 
HAARAA: K(a,b) = (ya +b +r)" 
高 斯 RBF AAA: K(a,b) = exp(- y|la - bl’) 
Sigmoid 核 函 数 , K(a,b) = tanh(ya +b +r) 


Mercer 定 理 


根据 Mercer 定 理 ， 如 果 函 数 K (a, b 符合 几 个 数学 条 件 thie 
Mercer 条 件 〈K 必 须 是 连续 的 ， 并 且 在 其 参数 上 对 称 ， 所 以 K (a, b) 
=K (b, a) ， 等 等 ) ， 则 存在 画 数 ”将 a 和 b 映 射 到 另 一 空间 (可 能 是 
更 高 维度 的 空间 ) ， 使 得 K (a, b) = (a) T-P (o) 。 所 以 你 可 
以 将 K 用 作 核 丽 数 ， 因 为 你 知道 ? 是 存在 的 ， 即 使 你 不 知道 它 是 什 


么 。 对 于 高 斯 RBE 核 画 数 ， 可 以 看 出 ， ? 实际 上 将 每 个 训练 实例 映射 
到 了 一 个 无 限 维 空间 ， 幸 好 不 用 执行 这 个 映射 。 

注意 ， 也 有 一 些 常用 的 核 画 数 (如 Sigmoid 核 画 数 ) 不 符合 Mercer 条 件 
的 所 有 条 件 ， 但 是 它们 在 实践 中 通常 也 表现 不 错 。 

还 有 一 个 未 了 结 的 问题 我 们 需要 说 明 。 公 式 5-7 显 示 了 用 线性 SVM 分 类 
器 如 何 从 对 偶 解 走 到 原始 解 ， 但 是 如 果 你 应 用 了 核 技巧 ， 最 终 得 到 的 

BOS? (x O) 的 方程 。 而 多 的 维度 数量 必须 与 x O) 相 

同 ， 后 者 很 有 可 能 是 巨大 甚至 是 无 穷 大 的 ， 所 以 你 根本 没 法 计算 。 可 

是 不 知道 名 该 如 何 做 出 预测 呢 ? 你 可 以 将 公式 5-7 中 前 的 公式 插入 新 实 
例 x O 的 决策 画 数 中 ， 这 样 就 得 到 了 一 个 只 包含 输入 向 量 之 间 点 积 的 
公式 。 这 时 你 就 可 以 再 次 运用 核 技巧 了 ( 见 公 式 5-11) ° 


公式 5-11: 使 用 核 化 SVM 做 出 预测 


il 
rm 
2> 
= 
> 
+ 


ali) >0 


注意 ， 因 为 仅 对 于 支持 向 量 才 有 a (xz0， 所 以 预测 时 ， 计 算 新 输入 向 
Bx W 的 点 积 ， 使 用 的 仅仅 是 支持 向 量 而 不 是 全 部 训练 实例 。 当 然 ， 
你 还 需要 使 用 同样 的 技巧 来 计算 偏 置 项 2 〈 见 公式 5-12) ° 


公式 5-12: 使 用 核 技 巧 计算 偏 置 项 


| oe eee ae 
=D (1-1 Fax x") 
şs i=] jz! 


ali) >0 ali) >0 
如 果 你 现在 开始 觉得 头痛 ， 完 全 正常 : 这 正 是 核 技 巧 的 副作用 。 
在 线 SVM 


在 本 章 结束 之 前 ， 我 们 快速 了 解 一 下 在 线 SVM 分 类 器 (回想 一 下 ， 在 
线 学 习 意 味 着 增 量 学 习 ， 通 常 就 是 新 实例 到 来 的 时 候 学 习 ) 。 


对 线性 SVM 分 类 器 来 说 ， 方 法 之 一 是 使 用 梯度 下 降 ， 使 从 原始 问题 导 
出 的 成 本 函数 ( 见 公 式 5-13) 最 小 化 。 但 不 幸 的 是 ， 这 种 方法 的 收敛 速 
度 比 二 次 规划 方法 要 慢 得 多 。 


公式 5-13: 线性 SVM 分 类 器 成 本 函数 


m 


J(w,b) = v “wt CY max(0,1 ap Cw Ed 
ie! 


成 本 函数 中 的 第 一 项 会 推动 模型 得 到 一 个 较 小 的 权重 向 量 w， 从 而 使 间 
隅 更 大 。 第 二 项 则 计算 全 部 的 间隔 违例 。 如 果 没 有 一 个 示例 位 于 街道 
之 上 ， 并 且 都 在 街道 正确 的 一 边 ， 那 么 这 个 实例 的 间隔 违例 为 0， 如 不 
然 ， 则 该 实例 的 违例 大 小 与 其 到 街道 正确 一 边 的 距离 成 正比 。 所 以 将 
这 个 项 最 小 化 ， 能 够 剑 证 模型 使 间隔 违例 尽 可 能 小 ， 也 尽 可 能 少 。 


Hinge 损 失 函 数 


函数 max (0，1-t) 被 称 为 hinge 损 失 函 数 (如 下 图 所 示 ) ° Stil, K 
数 等 于 0。 如 果 t<1， 其 导数 (斜率 ) 等 于 -1， 如 果 t>1， 则 导数 A 


#8) 为 0，t=1， 时 ， 画 数 不 可 导 。 但 是 ， 在 t=0 处 可 以 使 用 任意 次 导数 
ee ， 你 还 是 可 以 使 用 梯度 下 降 ， 残 跟 Lasso 回 归 


在 线 5VM 也 可 以 实现 核 技 巧 ， 可 参考 “Incremental and Decremental SVM 
Learning” (http://goo.g/JEqVui) [4-， 以 及 “Fast Kernel Classifiers with 

Online and Active Learning” (https://g00.g/hsoUHA ) [3l 。 但 是 这 些 是 

在 Matlab 和 C++ 上 实现 的 。 对 于 大 规模 非 线性 问题 ， 你 可 能 需要 使 用 神 

经 网 络 (本 书 第 二 部 分 ) 。 


[1]_Zeta (Z) 是 希腊 字母 的 第 8 个 字母 。 

[2] 要 了 解 更 多 关于 二 次 规划 的 信息 ， 可 以 从 阅读 Stephen Boyd 和 Lieven 
Vandenberghe 的 “Convex Optimization” (剑桥 大 学 出 版 社 ，2004 年 ) FF 
始 ， 或 者 是 观看 Richard Brown 的 系列 讲座 。 


[31. 目 标 钞 数 是 凸 钞 数 ， 并 且 不 等 式 约束 是 连续 可 微 的 凸 范 数 。 


[4]__“Incremental and Decremental Support Vector Machine 
Learning”G.Cauwenberghs, T.Poggio (2001) . 


[5|_“Fast Kernel Classifiers with Online and Active Learning“A.Bordes , 
S.Ertekin, J.Weston, L.Bottou (2005) . 


练习 


1. 文 持 问 量 机 的 基本 思想 是 什么 ? 

2. 什 么 是 文 持 问 量 ? 

3. 使 用 SVM 时 ， 对 输入 值 进行 缩放 为 什么 重要 ? 
4.SVM 分 类 絮 在 对 实例 进行 分 类 时 ， 会 输出 信心 分 数 么 ? 概率 呢 ? 


5. 如 采 训 练 集 有 上 千 万 个 实例 和 几 百 个 特征 ， 你 应 该 使 用 SVM 原始 问 
题 还 是 对 倡 问题 来 训练 模型 ? 


6. 假 设 你 用 RBF 核 训练 了 一 个 SVM 分 类 絮 ， 看 起 来 似乎 对 训练 集 拟 合 不 
足 ， 你 应 该 提升 还 是 降低 Yv (gamma) ? CH? 


7. 如 果 使 用 现成 二 次 规划 求解 右 ， 你 应 该 如 何 设置 QP 参 数 (H > f > AFI 
b) ， 来 解决 软 间 隅 线性 SVM 分 类 响 问 题 ? 


8. 在 一 个 线性 可 分 离 数据 集 上 训练 LinearSVC。 然 后 在 同一 数据 集 上 训 
练 SVC 和 SGDClassifier。 看 看 你 是 否 可 以 用 它们 产 出 大 致 相同 的 模型 。 


9. 在 MNIST 数 据 集 上 训练 SVM 分 类 器 。 由 于 SVM 分 类 器 是 个 二 元 分 类 
器 ， 所 以 你 需要 使 用 一 对 多 来 为 10 个 数字 进行 分 类 。 你 可 能 还 需要 使 
用 小 型 验证 集 来 调整 超 参 数 以 加 快 进度 。 最 后 看 看 达到 的 精度 是 多 
A 

10. 在 加 州 住房 数据 集 上 训练 一 个 SVM 回归 模型 。 

以 上 练习 的 解答 可 从 附录 A 中 获得 。 

POR ARIN 
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类 和 回归 任务 ， 甚 至 是 多 和 输出 任务 。 它 们 功能 强大 ， 能 够 拟 合 复杂 的 
数据 集 。 例 如 ， 在 第 2 章 中 ， 我 们 曾经 在 加 州 住房 数据 集 上 训练 过 一 个 
DecisionTreeRegressor 模 型 ， 完 美 拟 合 数据 集 (实际 上 过 度 拟 合 ) ° 


决策 树 同时 也 是 随机 森林 (参见 第 7 章 ) 的 基本 组 成 部 分 ， 后 者 是 现今 
最 强大 的 机 此 学 习 算 法 之 一 。 


在 本 章 中 ， 首 和 完 ， 我 们 会 讨论 如 何 对 决策 树 进行 训练 、 可 视 化 和 预 
测 ， 然 后 介绍 Scikit-Learn 的 CART 训 练 算法 ， 讨 论 如 何 对 决策 树 进行 正 
则 化 并 将 其 用 于 回归 任务 ， 最 后 ， 我 们 会 谈 一 谈 决 策 树 的 部 分 限制 。 


决策 树 训练 和 可 视 化 
要 了 解决 策 树 ， 让 我 们 先 构建 一 个 决策 树 ， 看 看 它 是 如 何 做 出 预测 
的 。 下 面 的 代码 在 营 尾 花 数据 集 ( 见 第 4 章 ) 上 训练 了 一 个 


DecisionTreeClassifier: 


from sklearn.datasets import load_iris 


from sklearn.tree import DecisionTreeClassifier 


iris = load_iris() 
X = iris.data[:, 2:] # petal length and width 


y = iris.target 


tree_clf = DecisionTreeClassifier (max_depth=2) 


tree_clf.fit(xX, y) 


要 将 决策 树 可 视 化 ， 首 先 ， 使 用 export_graphviz () 方法 输出 一 个 图 形 
定义 文件 ， 命 名 为 iris_tree.dot: 


from sklearn.tree import export_graphviz 


export_graphviz( 
tree_clf, 
out_file=image_path("iris_tree.dot"), 
feature_names=iris.feature_names[2:], 
class_names=iris.target_names, 
rounded=True, 


filled=True 


然后 ， 可 以 使 用 graphviz 包 [由 中 的 dot 命 令 行 工 具 将 这 个 .dot 文 件 转 换 为 
ee a ae 


$ dot -Tpng iris_tree.dot -o iris_tree.png 


你 的 第 一 个 决策 树 如 图 6-1 所 示 。 


petal length (cm) <= 2.45 
gini = 0.6667 
samples = 150 

value = [50, 50, 50] 


class = setosa 


petal width (cm) <= 1.75 
gini = 0.5 
samples = 100 
value = (0, 50, 50] 
Class = versicolor 


gini = 0.168 
samples = 54 
value = [0, 49, 5] 
Class = versicolor 


图 6-1: 高 尾 化 决策 树 


[1].graphviz 是 一 个 开源 图 形 可 视 化 软件 包 ， 可 从 http://wwwgraphviz.org/ 
获取 。 


做 出 预测 


我 们 来 看 看 图 6-1 中 的 树 是 如 何 做 出 预测 鸣 。 如 果 你 找到 了 一 条 交尾 
人 花 ， 想 要 将 其 归 类 ， 那 么 从 根 节 点 《深度 0， 位 于 顶部) 开始 : ARE 
的 花瓣 长 度 是 否 小 于 2.45 厘 米 ? 如 果 是 ， 则 辐 下 移动 到 根 的 左 侧 子 和 点 
OREL, Æ) 。 本 例 中 ， 这 是 一 个 叶 节 点 ( 即 没 有 任何 子 节点 ) ， 所 
以 它 不 再 继续 提出 问题 ， 你 可 以 直接 查看 这 个 市 点 的 预测 类 别 ， 也 束 

是 说 ， 决 策 树 预测 你 的 这 朱 花 是 Setosa 营 尾 花 (class=setosa) ° 


假设 你 又 找到 了 一 示人 花 ， 但 是 这 次 的 花 匆 长 度 大 于 2.45 厘 米 。 你 必须 移 
动 到 根 节点 的 右 侧 子 节点 (深度 1， 右 ) ， 该 节点 不 是 叶 节 点 ， 所 以 它 
提出 另 一 个 问题 ， 花 瓣 宽 度 是 否 小 于 1.75 厘 米 ? 如 果 是 ， 那 这 未 花 最 有 
可 能 是 Versicolor 药 尾 花 (深度 2， 左 ) ; 如 果 不 是 ， 那 就 可 能 是 
Virginica®s 276 (深度 2， 右 ) 。 就 是 这 么 简单 。 
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完全 不 需要 进行 特征 缩放 或 集中 。 


节点 的 samples 属 性 统计 它 应 用 的 训练 实例 数量 。 例 如 ， 有 100 个 训练 实 
例 的 花瓣 长 度 大 于 2.45 厘 米 (深度 1， 右 ) ， 其 中 54 个 花 准 宽度 小 于 
1.75 厘 米 (深度 2， 左 ) 。 节 点 的 value 属 性 说 明了 该 节点 上 每 个 类 别 的 
训练 实例 数量 : 例如 ， 右 下 方 点 应 用 在 0 个 Setosa 遍 尾 、1 个 Versicolor 高 
尾 和 45 个 Virginica 苟 尾 实例 上 。 最 后 ， 克 点 的 gini 属 性 衡量 其 不 纯度 
(impurity) : 如 果 应 用 的 所 有 训练 实例 都 属于 同一 个 类 别 ， 那 么 节点 
就 是 “ 纯 ” 的 (gini=0) 。 人 例如， 深度 1 左 侧 节 点 仅 应 用 于 Setosa 昔 尾 花 训 
练 实例 ， 所 以 它 就 是 纯 的 ， 并 且 gini 值 为 0。 公 式 6-1 说 明了 第 i 个 节点 的 
基尼 系数 G ;的 计算 方式 。 例 如 ， 深 度 2 左 侧 节点 ， 基 尼 系 数 等 于 1- 
(0/54) “- (49/54) 2- (5/54) 2s0.168。 稍 后 还 将 介绍 另 一 种 不 纯度 
的 衡量 方法 。 


公式 6-1: 基尼 不 纯度 


k=] 
Pi kx 是 第 i 个 节点 上 ， 类 别 为 k 的 训练 实例 占 比 。 
人 son Loum 借用 的 是 CART 算 法 ， 该 算法 仅 生 成 二 叉 树 : JET A, 


永远 只 有 两 个 子 市 点 ( 即 问题 答案 仅 有 是 或 否 ) 。 但 是 ， 其 他 算法 ， 
比如 ID3 生 成 的 决策 树 ， 其 节点 可 以 拥有 两 个 以 上 的 子玉 后 。 


图 6-2 显 示 了 决策 树 的 决策 边界 。 加 粗 直 线 表示 根 节点 (深度 0) 的 决策 
边界 : 花 办 长 度 =2.45 厘 米 。 因 为 左 侧 区 域 是 纯 的 《只 有 Setosa 苟 尾 

花 ) ， 所 以 它 不 可 再 分 。 但 是 右 侧 区 域 是 不 纯 的 ， 所 以 深度 1 右 侧 的 区 
点 在 花 办 宽度 =1.75 厘 米 处 (虚线 所 示 ) 再 次 分 裂 。 因 为 这 里 最 大 深度 
max_depth 设 置 为 2， 所 以 决策 树 在 此 停止 。 但 是 如 果 你 将 max_depth 设 
a 
不 o 
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图 6-2: 决策 树 的 决策 边界 
RAPE HaT IRAT 


如 你 所 见 ， 决 策 树 是 非 第 直观 的 ， 它 们 的 决策 也 很 容易 解释 ， 这 类 模 
型 通常 被 称 为 白 盒 模型 。 与 之 相反 的 ， 我 们 稍 后 将 会 看 到 ， 随 机 森林 
或 是 神经 网 络 被 认为 古 一 种 黑 鲍 模型。 它们 能 做 出 很 棒 的 预测 ， 你 也 
可 以 轻松 检查 它们 在 做 出 预测 时 执行 的 计算 ， 然 而 ， 通 第 很 难 解释 清 
楚 它 们 为 什么 做 出 这 样 的 预测 。 比 如 ， 如 果 神 经 网 络 说 某 个 人 出 现在 
一 张 图 片上 ， 很 难 知道 它 实 际 上 是 基于 什么 做 出 的 该 预测 ， 是 模型 识 
别 出 来 了 这 个 人 的 眼睛 ? 嘴巴 ? aT? 还 是 鞋子 ? 甚至 是 她 坐 的 沙 


发 ? 相反 ， 决 策 树 提供 了 简单 好 用 的 分 类 规则 ， 需 要 的 话 ， 你 甚至 可 
以 手动 应 用 这 些 规则 〈 例 如 ， 花 的 分 类 ) 。 


RRIAK 


决策 树 同样 可 以 佑 算 某 个 实例 属于 特定 类 别 k 的 概率 : 首先 ， 跟 随 决 策 
树 找到 该 实例 的 叶 节 点 ， 然 后 返回 该 节点 中 类 别 k 的 训练 实例 占 比 。 例 
如 ， 假 设 你 发 现 一 杀人 花 ， 其 花瓣 长 5 厘米 ， 贺 1.5 厘 米 。 相 应 的 叶 节 点 为 
深度 2 左 侧 和 点 ， 因 此 决策 树 输出 如 下 概率 : Setosa $ E, 

0% (0/54) ; Versicolor Æ, 90.7% (49/54) ; Virginica®s 4, 
9.3% (5/54) 。 当 然 ， 如 果 你 要 求 它 预测 类 别 ， 那 么 它 应 该 输出 
Versicolor Æe (X31) ， 因 为 它 的 概率 最 高 。 我 们 试 一 下 : 


>>> tree_clf.predict_proba([[5, 1.5]]) 
array([[ 0. , 0.90740741, 0.09259259]]) 


>>> tree_clf.predict([[5, 1.5]]) 


array([1]) 


完美 ! 注意 ， 图 6-2 的 右 下 和 矩形 中 任意 点 的 估算 概率 都 是 相同 的 一 一 比 
如 ， 如 果 人 花瓣 长 6 厘米 ， 宽 1.5 厘 米 ， 概 率 还 是 一 样 (虽然 看 起 来 ， 这 时 
最 大 的 可 能 应 该 是 Virginica 竟 尾 花 ) 。 


CART 训 练 算法 


Scikit-Learn 使 用 的 是 分 类 与 回归 树 (Classification And Regression 
Tree， 人 简称 CART) 算法 来 训练 决策 树 (也 叫 作 “生长 * 树 ) 。 想 法 非常 
简单 : 首先 ， 使 用 单个 特征 k 和 靖 值 t, 《例如 ， 花 办 长 度 <2.45 厘 米 ) 将 
训练 集 分 成 两 个 子 集 。k 和 靖 值 tk 怎么 选择 ? 答案 是 产生 出 最 纯 子 集 

( 受 其 大 小 加 权 ) 的 k 和 tjy 就 是 经 算法 搜索 确定 的 (t, tp) 。 算 法 尝试 
最 小 化 的 成 本 函数 为 公式 6-2。 


公式 6-2: CART 分 类 成 本 函数 


人 _ Meg C M cht C 
jl te) 7 m left T 


m 


right 


iih fi F T / 石 T 集 的 不 An ia 
M ety right 是 左 / 右 子 集 的 实例 数量 


一 旦 成 功 将 训练 集 一 分 为 二 ， 它 将 使 用 相同 的 逻辑 ， 继 续 分 列子 集 ， 
然后 是 子 集 的 子 集 ， 依 次 循环 递 进 。 直 到 抵达 最 大 深度 (由 超 参 数 
max_depth 探 制 ) ， 或 是 再 也 找 不 到 能 够 降低 不 纯度 的 分 裂 ， 它 才 会 停 
止 。 还 有 一 些 超 参数 ( 稍 后 介绍 ) 可 以 用 来 控制 附加 的 停止 条 件 

(min_samples_split ` min_samples_leaf ` min_weight_fraction_leaf% 
max leaf nodes) ° 


其 中 


ZN 
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后 每 层 重复 这 个 过 程 。 几 层 分 裂 之 后 ， 它 并 不 会 检视 这 个 分 裂 的 不 纯 
度 是 否 为 可 能 的 最 低 值 。 贪 焚 算 法 通常 会 产生 一 个 相当 不 错 的 解 ， 但 
征 不 能 保证 是 最 优 解 。 


而 不 幸 的 是 ， 寻 找 最 优 树 是 一 个 已 知 的 NP 完 全 问题 : La BEAN Tal E 
O (exp (m) ) ， 所 以 即使 是 很 小 的 训练 集 ， 也 相当 环 手 。 这 束 是 为 
什么 我 们 必须 接受 一 个 “相当 不 错 ?” 的 解 。 


[1] P 就 是 能 在 多 项 式 时 间 内 解决 的 问题 集 。NP 是 能 在 多 项 式 时 间 内 验 
证 解 正确 与 否 的 问题 集 。 如 果 一 个 问题 L 是 NP-Hard 问 题 ， 那 么 任意 一 
个 NP 问题 都 可 以 在 多 项 式 时 间 内 被 规约 成 这 个 LL 问题 。 而 NP 完全 问题 
即 是 NP 问 题 ， 又 是 NP-Hard 问 题 。 有 一 个 数学 开放 问题 ， 即 P 是 否 等 
NP? 如 果 PzNP (看 起 来 很 可 能 如 此 ) ， 那 么 对 于 任何 NP 完 全 问题 ， 
将 不 存在 多 项 式 算 法 (可 能 量子 计算 机 除外 ) 。 


计算 复杂 度 


进行 预测 需要 从 根 到 叶 明 历 决策 树 。 通 常 来 说 ， 决 策 树 大 致 平衡 ， 因 
上 和 人 条 大 logy) TPH QÈ: log, Æ 
2 为 底 的 对 数 。 等 于 log。(m) =log (m) Aog (2) °) 而 每 个 节点 只 
AARE ETE, DLAI B NLR wih 10 (log, (m) ) , 
与 特征 数量 无 关 。 如 此 ， 即 便 是 处 理 大 型 数据 集 ， 预 测 也 很 快 。 


但 是 ， 训 练 时 在 每 一 个 节点 ， 算 法 都 需要 在 所 有 样本 上 比较 所 有 特征 
(如 果 设置 了 max_ features 会 少 一 些 ) 。 这 导致 训练 的 复杂 度 为 O 
(nxmlog (m) ) 。 对 于 小 型 训练 集 〈 几 千 个 实例 以 内 ) ，Scikit- 
Learn 可 以 通过 对 数据 预 处 理 (设置 presort=True) 来 加 快 训练 ， 但 是 对 
于 较 大 训练 集 而 言 ， 可 能 会 减 慢 训练 的 速度 。 


基尼 不 纯度 还 不 是 全 JAMA 


默认 使 用 的 是 基尼 不 纯度 来 进行 测量 ， 但 是 ， 你 可 以 将 超 参 数 criterion 
设置 为 "entropy 来 选择 信息 (EDS AS a Ea E E e AUF 
力学 ， 是 一 种 分 子 混乱 程度 的 度量 : WRITS EMR, A 
接近 于 零 。 后 来 这 个 概念 传播 到 各 个 领域 ， 其 中 包括 香农 的 信息 理 
论 ， 它 衡量 的 是 一 条 信息 的 平均 信息 内 容 : 出 如 果 所 有 的 信息 都 相 
同 ， 则 箭 为 零 。 在 机 器 学 习 中 ， 它 也 经 常 被 用 作 一 种 不 纯度 的 测量 方 
A: 如 采 数 据 集中 仅 包 含 一 个 类 别 的 实例 ， 其 彤 为 零 。 公 式 6-3 显 示 了 
第 ji 个 节点 的 箭 值 的 计算 方式 。 人 例如， 图 6-1 中 深度 2 左 侧 节 点 的 箭 值 等 

49 49 5 

- 3qloe($ )- 37 loe( a} 0.31 


公式 6-3 t= EA 


H, = 一 pixlog(p;1) 
» 0 


那么 你 到 底 应 该 使 用 基尼 不 纯度 还 是 信息 粹 呢 ? 其 实 ， 大 多 数 情况 
下 ， 它 们 并 没有 什么 大 的 不 同 ， 产 生 的 树 都 很 相似 。 基 尼 不 纯度 的 计 
算 速 度 上 略微 快 一 些 ， 所 以 它 是 个 不 错 的 默认 选择 。 它 们 的 不 同 在 于 ， 
FEE NEEL AAP SOAP So BR ae AS LRA, mE I Ab F 
EP BEF ATHY o lal 


(1) AREA ial E E BER fs SS ae 


[2] 更 多 详情 可 参阅 Sebastian Raschka 的 有 趣 分 析 
(https://sebastianraschka.com/faq/docs/decision-treebinary.html) ° 


正则 化 超 参数 


决策 树 极 少 对 训练 数据 做 出 假设 比如 线性 模型 束 正 好 相反 ， 它 显然 
假设 数据 是 线性 的 ，。 如 果 不 加 以 限制 ， 树 的 结构 将 跟随 训练 集 变 
化 ， 严 密 拟 合 ， 并 且 很 可 能 过 度 拟 合 。 这 种 模型 通常 被 称 为 非 参 数 模 
型 ， 这 不 是 说 它 不 包含 任何 参数 (事实 上 它 通 党 有 很 多 参数 ) ， 而 是 
在 训练 之 前 没有 确定 参数 的 数量 ， 导 致 模型 结构 目 由 而 紧密 地 贴近 
数据 。 相 应 的 参数 模型 ， 比 如 线性 模型 ， 则 有 预先 设 定好 的 一 部 分 参 
数 ， 因 此 其 自由 度 受 限 ， 从 而 降低 了 过 度 拟 合 的 风险 (但 是 增加 了 拟 
合 不 足 的 风险 ) 。 


为 避免 过 度 拟 合 ， 需 要 在 训练 过 程 中 降低 决策 树 的 自由 度 。 现 在 你 应 
该 知道 ， 这 个 过 程 被 称 为 正则 化 。 正 则 化 超 参数 的 选择 取决 于 你 所 使 
用 的 模型 ， 但 是 通常 来 说 ， 至 少 可 以 限制 决策 树 的 最 大 深度 。 在 Scikit- 
Learn 中 ， 这 由 超 参 数 max_depth 控 制 (默认 值 为 None， 意 味 着 无 限 
制 ) 。 减 小 max_depth 可 使 模型 正则 化 ， 从 而 降低 过 度 拟 合 的 风险 。 


DecisionTreeClassifier 类 还 有 一 些 其 他 的 参数 ， 同 样 可 以 限制 决 俩 树 的 
形状 : min_samples_split (分 裂 前 节点 必须 有 的 最 小 样本 数 ) ， 
min_samples_leaf ( 叶 节 点 必须 有 的 最 小 样本 数量 ) ， 
min_weight_fraction_leaf ( 跟 min_samples_leaf 一 样 ， 但 表现 为 加 权 实 例 
总 数 的 占 比 ) ，max_leaf_nodes (最 大 叶 节 点 数量 ) ， 以 及 
max_features (分 裂 每 个 节点 评估 的 最 大 特征 数量 ) 。 增 大 超 参 数 
min_* 或 是 减 小 max_* 将 使 模型 正则 化 。 


` DET LASER INA RAI RAY, Sa FET AN BA T EITA 
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不 必要 ， 除 非 它 所 表示 的 纯度 提升 有 重要 的 统计 和 意义。 标准 统计 测 
试 ， 比 如 Xx“ 测试， 是 用 来 估算 “提升 纯粹 是 出 于 偶然 ”( 被 称 为 虚假 
设 ) 的 概率 。 如 果 这 个 概率 〈 称 之 为 p 值 ) 高 于 一 个 给 定 阐 值 (通常 是 
59%， 由 超 参数 控制 ) , BARS ATRUNARDE, APD K 
删除 。 直 到 所 有 不 必要 的 节操 部 被 删除 ， 药 枝 过 程 结束 。 


图 6-3 显 示 了 在 卫星 数据 集 ( 见 第 5 章 介 绍 ; 上 训练 的 两 个 决策 树 。 左 图 
使 用 默认 参数 〈 即 无 约束 ) 来 训练 决策 树 ， 右 图 的 决策 树 应 用 
min_samples_leaf=4 进 行 训练 。 很 明显 ， 左 图 模型 过 度 拟 合 ， 右 图 的 泛 
KARENE ° 


min samples_leaf=4 
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图 6-3: 使 用 min_samples_leaf 正 则 化 


回归 


决策 树 也 可 以 执行 回归 任务 。 我 们 用 Scikit Learn 的 
DecisionTreeRegressor 来 构建 一 个 回归 树 ， 在 一 个 带 噪 声 的 二 次 数据 集 
上 进行 训练 ， 其 中 max_depth=2: 


from sklearn.tree import DecisionTreeRegressor 


tree_reg = DecisionTreeRegressor (max_depth=2 ) 


tree_reg.fit(X, y) 


结果 树 如 图 6-4 所 示 。 


x1 <= 0.1973 
mse = 0.0978 
samples = 200 
value = 0,3539 


x1 <= 0.7718 
mse = 0,074 
samples = 156 
value = 0,2592 


x1 <= 0.0917 
mse = 0.0377 
samples = 44 

Value = 0.6894 


mse = 0.0359 
samples = 46 
value = 0.6146 


mse = 0.0151 
samples = 110 
value = 0.1106 


mse = 0.0131 
samples = 24 
value = 0.5522 


图 6-4: 回归 任务 的 决策 树 


这 棵 树 看 起 来 跟 之 前 建立 的 分 类 树 很 相似 。 主 要 差别 在 于 ， 每 个 节点 
上 不 再 是 预测 一 个 类 别 而 是 预测 一 个 值 。 例 如 ， 如 果 你 想 要 对 一 个 xi 
=0.6 的 新 实例 进行 预测 ， 那 么 从 根 节点 开始 遍历 ， 最 后 到 达 预 测 
value=0.1106 的 叶 节点 。 这 个 预测 结果 其 实 就 是 与 这 个 时 节点 关联 的 
110 个 实例 的 平均 目标 值 。 在 这 110 个 实例 上 ， 预 测 产 生 的 均 方 误差 
(MSE) 等 于 0.0151。 


图 6-5 的 左 侧 显示 了 该 模型 的 预测 。 如 果 设 置 max_depth=3， 将 得 到 如 右 
图 所 示 的 预测 。 注 意 看 ， 每 个 区 域 的 预测 值 永远 等 于 该 区 域内 实例 的 
目标 平均 值 。 算 法 分 裂 每 个 区 域 的 方法 ， 就 是 使 最 多 的 训练 实例 尽 可 
能 接近 这 个 预测 值 。 

CART 算 法 的 工作 原理 跟前 面 介绍 的 大 人 怪 相 同 ， 唯 一 不 同 在 于 ， 它 分 怕 
训练 集 的 方式 不 是 最 小 化 不 纯度 ， 而 是 最 小 化 MSE。 公 式 6-4 显 示 了 算 
法 竹 试 最 小 化 的 成 本 函数 。 


公式 6-4: CART 回 归 成 本 函数 
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图 6-5: 两 个 决策 树 回 归 模 型 的 预测 对 比 


与 分 类 任务 一 样 ， 决 策 树 在 处 理 回 归 任务 时 也 很 容易 过 度 拟 合 。 如 果 
没有 任何 正则 化 (即使 用 默认 超 参 数 ) ， 你 将 得 到 如 图 6-6 左 侧 所 示 的 
预测 结果 ， 这 显然 对 训练 集 严重 过 度 拟 合 。 只 需要 设置 
min_samples_leaf=10， 就 能 得 到 一 个 看 起 来 合理 得 多 的 模型 ， 如 图 6-6 
ARPT ° 


min samples leaf=10 


图 6-6: 对 回归 决策 树 正 则 化 
不 稳定 性 


希望 现在 ， 你 已 经 确信 了 选择 决策 树 的 充足 理由 :它们 很 容易 理解 和 
解释 ， 使 用 简单 ， 功 能 全 面 并 且 十 分 强大 。 但 是 ， 它 们 确实 也 有 一 些 
限制 。 首 先 ， 你 可 能 已 经 注意 到 ， 决 策 树 青睐 正 交 的 决策 边界 《所 有 
的 分 裂 都 与 轴线 垂直 ) ， 这 导致 它们 对 训练 集 的 旋转 非常 敏感 。 例 
如 ， 图 6-7 显 示 了 一 个 简单 的 线性 可 分 离 数据 集 ， 左 图 里 ， 决 策 树 可 以 
很 轻松 分 虱 ， 而 到 了 右边 ， 数 据 集 旋转 45° 后 ， 决 策 边界 产生 了 不 必要 
的 卷曲 。 虽 然 两 个 模型 都 看 似 完美 拟 合 训练 集 ， 但 是 右 侧 模型 很 可 能 
泛 化 不 佳 。 限 制 这 种 问题 的 方法 之 一 是 使 用 PCA (BASE) ， 让 训 
练 数据 定位 在 一 个 更 好 的 方向 上 。 
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图 6-7: 对 数据 旋转 敏感 


更 概括 地 说 ， 决 策 树 的 主要 问题 是 它们 对 训练 数据 中 的 小 变化 非常 敏 
感 。 例 如 ， 如 有 果 你 从 高 尾 花 数据 集中 移 除 花 办 最 宽 的 Versicolor 高 尾 花 
( 花 办 长 4.8 厘 米 ， 宽 1.8 厘 米 ) ， 然 后 重新 训练 一 个 决策 树 ， 你 可 能 得 
到 如 图 6-8 所 示 的 模型 。 这 女 之 前 图 6-2 的 决策 树 看 起 来 截然 不 同 。 事 实 
上 ， 由 于 Scikit-Leam 所 使 用 的 算法 是 随机 的 ，! 寺 即使 是 在 相同 的 训练 


数据 上 ， 你 也 可 能 得 到 完全 不 同 的 模型 《除非 你 对 超 参 数 random_state 
进行 设置 ) 。 
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图 6-8: 对 训练 集 细 市 敏感 


在 下 一 章 中 ， 我 们 将 会 看 到 ， 随 机 森林 通过 对 许多 树 的 预测 进行 平 
均 ， 可 以 限制 这 种 不 稳定 性 。 


[1] 每 个 节点 随机 选择 特征 集 进 行 评 佑 。 
练习 
1. 如 果 训 练 集 有 100 万 个 实例 ， 训 练 决策 树 (无 约束 ) 大 致 的 深度 是 多 


少 ? 


2. 通 常 来 说 ， 子 市 扩 的 基尼 不 纯度 是 高 于 还 是 低 于 其 父 节 点 ?是 通常 更 
高 /更 低 ? 还 是 永远 更 高 /更 低 ? 


3. 如 果 决 策 树 过 度 拟 合 训 练 集 ， 诚 少 max_depth 是 否 为 一 个 好 主意 ? 


4 MARTA ERAS NE 尝试 缩放 输入 特征 是 否 为 一 个 好 主 
5. 如 果 在 包含 100 万 个 实例 的 训练 集 上 训练 决策 树 需 要 一 个 小 时 ， 那 么 
在 包含 1000 万 个 实例 的 训练 集 上 训练 决策 树 ， 大 概 需 要 多 长 时 间 ? 
6. 如 果 训 练 集 包含 100000 个 实例 ， 设 置 presort=True 可 以 加 快 训 练 么 ? 
7. 为 卫星 数据 集训 练 并 微调 一 个 决策 树 。 

a. 52 #imake_moons (n_samples=10000, noise=0.4) 生成 一 个 卫星 数据 


b. 使 用 train_test_split () 拆 分 训练 集 和 测试 集 。 


c. 使 用 交叉 验证 的 网 格 搜索 (在 GridSearchCV 的 帮助 下 ) 为 
DecisionTree-Classifier 找 到 适合 的 超 参 数 。 提 示 : 尝试 max_leaf_nodes 


的 多 种 值 。 


d. 使 用 超 参数 对 整个 训练 集 进行 训练 ， 并 测量 模型 在 测试 集 上 的 性 能 。 
你 应 该 得 到 约 85% 到 87% 的 准确 率 。 


8. 种 植 一 片 森林 。 


a. 继 续 之 前 的 练习 ， 生 产 1000 个 训练 集 子 集 ， 每 个 子 集 包 含 随机 挑选 的 
100 个 实例 。 提 示 : 使 用 Scikit-Learn 的 ShuffleSplit 来 实现 。 


b. 使 用 前 面 得 到 的 最 佳 超 参数 值 ， 在 每 个 子 集 上 训练 一 个 决策 树 。 在 测 
试 集 上 评估 这 1000 个 决策 树 。 因 为 训练 集 更 小 ， 所 以 这 些 决策 树 的 表 
现 可 能 比 第 一 个 决策 树 要 差 一 些 ， 只 能 达到 约 80% 的 准确 率 。 

c. 见 证 奇迹 的 时 刻 到 了 。 用 每 个 测试 集 实例 ， 生 成 1000 个 决策 树 的 预 
测 ， 然 后 仅 保留 次 数 最 频繁 的 预测 (可 以 使 用 Scipy 的 mode () 本 
数 ) 。 这 样 你 在 测试 集 上 可 获得 大 多 数 投票 的 预测 结果 。 


d. 评 佑 测试 集 上 的 这 些 预测 ， 你 得 到 的 准确 率 应 该 比 第 一 个 模型 更 高 
(高 H0.5%~1.5%) o 恭喜 你 已 经 训练 出 了 一 个 随机 森林 分 类 器 


以 上 练习 的 解答 可 从 附 邓 A 中 获得 。 


第 7 章 ”集成 学 习 和 随机 和 森林 


如 琳 你 随机 疝 几 千 个 人 询问 一 个 复 洒 问题 ， 然 后 汇总 他 们 的 回答 。 在 
许多 情况 下 ， 你 会 发 现 ， 这 个 汇总 的 回答 比 专家 的 回答 还 要 好 。 这 被 
称 为 群体 智慧 。 同 样 ， 如 果 你 聚合 一 组 预测 器 比如 分 类 器 或 回归 
器 ) 的 预测 ， 得 到 的 预测 结果 也 比 最 好 的 单个 预测 器 要 好 。 这 样 的 一 
组 预测 右 ， 我 们 称 为 集成 ， 所 以 这 种 技术 ， 也 被 称 为 集成 学 习 ， 而 一 
个 集成 学 习 的 算法 则 被 称 为 集成 方法 。 


例如 ， 你 可 以 训练 一 组 决策 树 分 类 如 ， 每 一 哥 树 都 基于 训练 集 不 同 的 
随机 子 集 进 行 训练 。 做 出 预测 时 ， 你 只 需要 获得 所 有 树 各 自 的 预测 ， 

然后 给 出 得 票 最 多 的 类 别 作为 预测 结果 〈 见 第 6 章 最 后 一 道 练习 ) 。 这 
样 一 组 决策 树 的 集成 被 称 为 随机 木林， 尽管 很 简单 ， 但 它 是 迄今 可 用 
的 最 强大 的 机 融 学 习 算法 之 一 。 


此 外 ， 正 如 我 们 在 第 2 章 讨 论 过 的 ， 在 项 目 快要 结束 时 ， 你 可 能 已 经 构 
建 好 了 一 些 不 错 的 预测 器 ， 这 时 你 就 可 以 通过 集成 方法 ， 将 它们 组 合 
成 一 个 更 强 的 预测 器 。 事 实 上 ， 在 机 器 学 习 竞 赛 中 获胜 的 解决 方案 通 
常 都 涉及 多 种 集成 方法 (最 知名 的 是 Nerflix 大 奖 赛 ( 
http://netflixprize.com/) ) ° 


本 章 我 们 将 探讨 最 流行 的 几 种 集成 方法 ， 包 括 bagging、boosting、 
stacking 等 ， 也 将 探索 随机 森林 。 


投票 分 类 器 


假设 你 已 经 训练 好 了 一 些 分 类 器 ， 每 个 分 类 器 的 准确 率 约 为 80%。 大 概 
包括 : 一 个 逻 虱 回归 分 类 器 、 一 个 SVM 分 类 器 、 一 个 随机 森林 分 类 
器 、 一 个 K- 近 邻 分 类 人 器， 或 许 还 有 更 多 〈 见 图 7-1) 。 


逻辑 回归 支持 向 量 机 NAH 
分 类 器 分 类 器 分 类 器 其 他 


se 


Al7-1: Wile Ras 


这 时 ， 要 创建 出 一 个 更 好 的 分 类 器 ， 最 简单 的 办 法 就 是 来 合 每 个 分 类 
如 的 预测 ， 然 后 将 得 聚 最 多 的 结 琳 作为 预测 类 别 。 这 种 大 多 数 投票 分 
类 器 被 称 为 硬 投票 分 类 器 〈 见 图 7-2) ° 
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图 7-2: BERR Ras FHM 


你 会 多 少 有 点 惊讶 地 发 现 ， 这 个 投票 法 分 类 器 的 准确 率 通 常 比 集成 中 
最 好 的 分 类 器 还 要 高 。 事 实 上 ， 即 使 每 个 分 类 器 都 是 弱 学 习 器 (意味 
着 它 仅 比 随机 猜测 好 一 点 ) ， 通 过 集成 依然 可 以 实现 一 个 强 学 习 咽 
A ， 只 要 有 尼 够 大 数量 并 且 足 够 多 种 类 的 弱 学 习 器 就 可 
Pl o 


这 怎么 可 能 呢 ? 下 面 这 个 类 比 可 以 帮助 你 掀 开 这 层 神秘 面纱 。 假 设 你 
有 一 个 略微 偏 倚 的 硬币 ， 它 有 51% 的 可 能 正面 数字 朝 上 ，49% 的 可 能 背 
面 花 朝 上 。 如 果 你 掷 1000 次 ， 你 大 致 会 得 到 差不多 510 次 数字 和 490 座 
花 ， 所 以 正面 是 大 多 数 。 而 如 果 你 做 数学 题 ， 你 会 发 现 , “在 1000 次 投 
掷 后 ， 大 多 数 为 正面 萌 上 ”的 概率 接近 75%。 投 掷 硬币 的 次 数 越 多 ， 这 
个 概率 越 高 〈 例 如， 投掷 10000 次 后 ， 这 个 概率 攀升 至 97%) 。 这 是 因 
为 大 数 定理 导致 的 ， 随 着 你 不 断 投 折 硬币 ， 正 面 朝 上 的 比率 越 来 越 接 
近 于 正面 的 概率 (51%) 。 图 7-3 显 示 了 10 条 偏 傈 硬币 的 投掷 结果 。 可 


Die HES AAS 0, EMRA, ERA AIA 10K 
线 全 都 接近 51%， 并 且 始 终 位 于 50% 以 上 。 
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图 7-3: 大 数 定 理 


同样 ， 假 设 你 创建 了 一 个 包含 1000 个 分 类 器 的 集成 ， 每 个 分 类 器 都 只 

有 519% 的 几率 是 正确 的 〈 几 乎 没 比 随机 猜测 强 多 少 ) 。 如 果 你 以 大 多 数 
投票 的 类 别 作为 预测 结果 ， 你 可 以 期 待 的 准确 率 高 达 759%“。 但 是 ， 这 基 
于 的 前 提 是 :所 有 的 分 类 器 都 是 完全 独立 的 ， 彼 此 的 错误 毫 不 相关 。 

显然 这 是 不 可 能 的 ， 因 为 它们 都 是 在 相同 的 数据 上 训练 的 。 它 们 很 可 

能 会 犯 相同 的 错误 ， 所 以 也 会 有 很 多 次 大 多 数 投 给 了 错误 的 类 别 ， 导 

致 集成 的 准确 率 有 所 降低 。 


A 当 预 测 器 尽 可 能 互相 独立 时 ， 集 成 方法 的 效果 最 优 。 获 得 多 种 分 类 
如 的 方法 之 一 束 是 使 用 不 同 的 算法 进行 训练 。 这 会 增加 它们 犯 不 同类 
型 错误 的 机 会 ， 从 而 提升 集成 的 准确 率 。 


下 面 的 代码 用 Scikit-Learn 创 建 并 训练 一 个 投票 分 类 器 ， 由 三 种 不 同 的 
分 类 器 组 成 〈 训 练 集 是 卫星 数据 集 ， 见 第 5 章 ) : 


mth 
mth 
A 


from sklearn.ensemble import RandomForestClassifier 
from sklearn.ensemble import VotingClassifier 
from sklearn.linear_model import LogisticRegression 


from sklearn.svm import SVC 


log_clf = LogisticRegression() 
rnd_clf = RandomForestClassifier() 
svm_clf = SVC() 
voting_clf = VotingClassifier( 
estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)], 


voting='hard' 


voting_clf.fit(X_train, y_train) 


SOP Re FE MUSE AP EBB ZE : 


>>> from sklearn.metrics import accuracy_score 
>>> for clf in (log_clf, rnd_clf, svm_clf, voting_clf): 
>>> clf.fit(X_train, y_train) 


>>> y_pred = clf.predict(X_test) 


>>> print(clf.__class__.__name__, accuracy_score(y_test, y_pred)) 


LogisticRegression 0.864 


RandomForestClassifier 0.872 


SVC 0.888 


VotingClassifier 0.896 


你 看 到 了 ， 投 票 分 类 器 略 胜 于 所 有 单个 分 类 器 。 


如 果 所 有 分 类 器 都 能 够 估算 出 类 别 的 概率 ( 即 有 predict_proba () X 
法 ) ， 那 么 你 可 以 将 概率 在 所 有 单个 分 类 器 上 平均 ， 然 后 让 Scikit- 
Lear 给 出 平均 概率 最 高 的 类 别 作为 预测 。 这 被 称 为 软 投票 法 。 通 常 来 
说 ， 它 比 硬 投票 法 的 表现 更 优 ， 因 为 它 给予 那 些 高 度 自信 的 投票 更 高 
的 权重 。 而 所 有 你 需要 做 的 就 是 用 voting="soft" 代 替 voting="hard"， 并 
确保 所 有 分 类 器 都 可 以 估算 出 概率 。 默 认 情 况 下 ，SVC 类 是 不 行 的 ， 
所 以 你 需要 将 其 超 参数 probability 设 置 为 True (这 会 导致 SVC 使 用 交叉 
验证 来 估算 类 别 概率 ， 减 慢 训 练 速度 ， 并 会 添加 predict_proba () 77 
法 ) 。 如 果 修 改 上 面 代码 为 使 用 软 投 票 ， 你 会 发 现 投 票 分 类 器 的 准确 
率 达 到 91% 以 上 | 


bagging fil pasting 


前 面 提 到 ， 获 得 不 同 种 类 分 类 器 的 方法 之 一 是 使 用 不 同 的 训练 算法 。 
还 有 男 一 种 方法 是 每 个 预测 器 使 用 的 算法 相同 ， 但 是 在 不 同 的 训练 集 
随机 子 集 上 进行 训练 。 采 样 时 如 果 将 样本 放 回 ， 这 种 方法 叫 作 bagging 
(Ll (bootstrap aggregating (站 的 缩写 ， 也 叫 自 举 汇率 法 ) ; 采样 时 样本 
不 放 回 ， 这 种 方法 则 叫 用 pasting。 |! 

换 句 话说 ，bagging 和 pasting 都 允许 训练 实例 在 多 个 预测 器 中 被 多 次 采 
样 ， 但 是 只 有 bagging 人 允许 训练 实例 被 同一 个 预测 器 多 次 采样 。 采 样 过 
程 和 训练 过 程 如 图 7-4 所 示 。 


) Fae 
MEET 


训练 


随机 抽样 
(样本 放 回 就 是 bootstrap) 


训练 集 


图 7-4: pasting/bagging 训 练 集 采 样 和 训练 
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测 ， 来 对 新 实例 做 出 预测 。 聚 合 画 数 通 常 是 统计 法 〈 即 最 多 数 的 预测 

好 比 硬 投票 分 类 器 一 样 ) 用 于 分 类 ， 或 是 平均 法 用 于 回归 。 
器 单独 的 侦 差 都 高 于 在 原始 训练 集 上 训练 的 偏差 ， 但 是 通过 聚合 ， 

时 降低 了 偏差 和 方差 。[ 包 总 体 来 说 ， 最 终结 果 是 ， 与 直接 在 原始 T 

集 上 训练 的 单个 预测 器 相 比 ， 和 集成 的 偏差 相近 ， 但 是 方差 更 低 。 


如 图 7-4 所 示 ， 你 可 以 通过 不 同 的 CPU 内 核 甚 至 是 不 同 的 服务 器 ， 并 行 
地 训练 预测 郝 。 类 似 地 ， 预 测 也 可 以 并 行 。 这 正 是 bagging 和 pasting 方 
法 如 此 流行 的 原因 之 一 ， 它 们 非常 易于 拓展 。 


Scikit-LeamHJbagging fil pasting 


Scikit-Learn 提 供 了 一 个 简单 的 API， 可 用 BaggingClassifier 类 进行 
bagging 和 pasting (或 BaggingRegressor 用 于 回归 ) 。 以 下 代码 训练 了 一 


个 包含 500 个 决策 树 分 类 器 的 集成 ， 5 每 次 随机 从 训练 集中 采样 100 个 
训练 实例 进行 训练 ， 然 后 放 回 (这 是 一 个 bagging 的 示例 ， 如 果 你 想 使 
用 pasting， 只 需要 设置 bootstrap=False 即 可 ) 。 人 参数 n_jobs 用 来 指示 
Scikit-Learn 用 多 少 CPU 内 核 进 行 训练 和 预测 (-1 表 示 让 Scikit-Learn 使 用 
所 有 可 用 内 核 ) : 


from sklearn.ensemble import BaggingClassifier 


from sklearn.tree import DecisionTreeClassifier 


bag_clf = BaggingClassifier( 
DecisionTreeClassifier(), n_estimators=500, 
max_samples=100, bootstrap=True, n_jobs=-1 
) 
bag_clf.fit(X_train, y_train) 


y_pred = bag_clf.predict(X_test) 


eur reat (也 就 是 具备 predict_proba () 
TIE) ， 比 如 决策 树 分 类 器 ， 那 么 BaggingClassifier 目 动 执行 的 就 是 软 
投票 法 而 不 是 醒 投票 法 。 


图 7-5 比 较 了 两 种 决策 边界 ， 一 个 古 单 个 的 决策 树 ， 一 个 是 由 500 个 决策 
树 组 成 的 bagging 集 成 (来 自前 面 的 代码 )  ， 均 在 卫星 数据 集 上 训练 完 

成 。 可 以 看 出 ， 集 成 预测 的 沁 化 效 末 很 可 能 会 比 蛙 独 的 决策 树 要 好 一 

些 ， 二 者 偏差 相近 ， 但 是 集成 的 方差 更 小 (两 边 训 练 集 上 的 错误 数量 

差不多 ， 但 古 集 成 的 决策 边界 更 规则 ) 。 
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图 7-5: 单个 的 决策 树 与 500 个 决策 树 的 bagging 集 成 对 比 


由 于 目 助 法 给 每 个 预测 器 的 训练 子 集 引 入 了 更 高 的 多 样 性 ， 所 以 最 后 

bagging 比 pasting 的 偏差 略 高 ， 但 这 也 意味 着 预测 器 之 间 的 关联 度 更 

低 ， 所 以 集成 的 方差 降低 。 总 之 ，bagging 生 成 的 模型 通常 更 好 ， 这 也 

就 是 为 什么 它 更 受 欢 迎 。 但 是 ， 如 果 你 有 充足 的 时 间 和 CPU 资源 ， 可 

oe 交叉 验 证 来 对 bagging 和 pasting 的 结果 进行 评估 ， 再 做 出 最 合适 
Spear 学 o 


包 外 评估 


对 于 任意 给 定 的 预测 器 ， 使 用 bagging， 有 些 实例 可 能 会 被 采样 多 次 ， 

而 有 些 实例 则 可 能 根本 不 被 采样 。BaggingClassifier 默 认 采 样 m 个 训练 
实例 ， 然 后 放 回 样本 (bootstrap=True) ，m 是 训练 集 的 大 小 。 这 意味 
着 对 于 每 个 预测 器 来 说 ， 平 均 只 对 63% 的 训练 实例 进行 采样 。 1 剩余 
379%6 未 被 采样 的 训练 实例 称 为 包 外 (oob) 实例 。 注 意 ， 对 所 有 预测 器 
来 说 ， 这 是 不 一 样 的 379% © 


既然 预测 硕 在 训练 的 时 候 从 未 见 过 这 些 包 外 实例 ， 正 好 可 以 用 这 些 实 
例 进行 评估 ， 从 而 不 需要 单独 的 验证 集 或 是 交叉 验证 。 将 每 个 预测 句 
在 其 包 外 实例 上 的 评 售 结 末 进 行 平均 ， 你 就 可 以 得 到 对 集成 的 评 信 。 


fEScikit-Learn, ft BaggingClassifier}, i<‘Soob_score=True, Wtr] 
以 请 求 在 训练 结束 后 目 动 进行 包 外 评 佑 。 下 面 的 代码 演示 了 这 一 点 。 
通过 变量 o0ob_score_ 可 以 得 到 最 终 的 评估 分 数 : 

>>> bag_clf = BaggingClassifier( 

>>> DecisionTreeClassifier(), n_estimators=500, 

— bootstrap=True, n_jobs=-1, oob_score=True) 

>>> bag_clf.fit(X_train, y_train) 

>>> bag_clf.oob_score_ 

0. 93066666666666664 
根据 包 外 评估 结果 ， 这 个 BaggingClassifier 分 类 器 很 可 能 在 测试 集 上 达 
到 约 93.1% 的 准确 率 。 我 们 来 验证 一 下 : 

>>> from sklearn.metrics import accuracy_score 

>>> y_pred = bag_clf.predict(x_test) 

>>> accuracy_score(y_test, y_pred) 


0.93600000000000005 


测试 集 上 的 准确 率 为 93.6% 一 一 非常 接近 |! 


每 个 训练 实例 的 包 外 决 案 函数 也 可 以 通过 变量 oob_decision_function_ 获 
得 。 本 例 中 (基础 预测 器 具备 predict_proba O 方法 ) ， 决 策 函 数 返 回 
的 是 每 个 实例 的 类 别 概率 。 例 如 ， 包 外 评估 估计 ， 第 二 个 训练 实例 有 
60.6% 的 概率 属于 正 类 〈 以 及 39.4% 的 概率 属于 负 类 ) 。 


>>> bag_clf.oob_decision_function_ 


array([[ 0. 六 工 ; 1, 


[ 0.60588235, 0.39411765], 


[ 1. , 9. l, 
[ 1. 1 0. ]; 
[ 0. , 1. l, 


[ 0.48958333, 0.51041667]]) 


[1] “Bagging Predictors”, L.Breiman (1996) ° 
[2]. 统 计 学 中 ， 放 回 重 新 采样 称 为 自助 法 (bootstrapping) ° 


[3|_“Pasting small votes for classification in large databases and on-line” , 
L.Breiman (1999) ° 


[4] 关于 偏差 和 方差 详 见 第 4 章 介绍 。 


[5]max_samples 可 以 在 0.0 到 1.0 之 间 灵 活 地 设置 ， 而 每 次 采样 的 最 大 实 
例 数 量 等 于 训练 集 的 大 小 乘 以 max_samples 。 


[6]. 随 着 mm 增长， 这 个 比率 接近 1-exp (-1) ~63.212%。 

Random Patches 和 随机 子 空间 

BaggingClassifier 也 文 持 对 特征 进行 抽样 ， 这 通过 两 个 超 参数 控制 : 
max_features 和 bootstrap_features。 它 们 的 工作 方式 跟 max_samples 和 


bootstrap 相 同 ， 只 是 抽样 对 象 不 再 是 实例 ， 而 是 特征 。 因 此 ， 每 个 预测 
如 将 用 输入 特征 的 随机 子 集 进 行 训练 。 


这 对 于 处 理 高 维 输入 〈 例 如 图 像 ) 特别 有 用 。 对 训练 实例 和 特征 都 进 
行 抽样 ， 被 称 为 Random Patches 方 法 。 岂 而 保留 所 有 训练 实例 ( 即 
bootstrap=False 并 且 max_samples=1.0) 但 是 对 特征 进行 抽样 ( 即 
bootstrap_features=True 并 且 / 或 max_features<1.0) ， 这 被 称 为 随机 子 空 
[AVA o [2] 
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[1]_“Ensembles on Random Patches”, G.LouppefllP.Geurts (2012) ° 


[2|_“The random subspace method for constructing decision forests”, Tin 
Kam Ho (1998) ° 


随机 和 森林 


前 面 已 经 提 到 ， 随 机 森林 (http:/goo.gVzVOGQ1) CERRAR 
成 ， 通 常用 bagging (有 时 也 可 能 是 pasting) 方法 训练 ， 训 练 集 大 小 通 
过 max_samples 来 设置 。 除 了 先 构 建 一 个 BaggingClassifier 然 后 将 结果 传 
输 到 DecisionTreeClassifier， 还 有 一 种 方法 束 是 使 用 
RandomForestClassifier 类 ， 这 种 方法 更 方便 ， 对 决策 树 更 优化 中 ( 同 
样 ， 对 于 回归 任务 也 有 一 个 RandomForestRegressor 类 ) 。 以 下 代码 使 
用 所 有 可 用 的 CPU 内 核 ， 训 练 了 一 个 拥有 500 棵 树 的 随机 森林 分 类 咽 
(每 棵 树 限 制 为 最 多 16 个 时 节点 ) : 


from sklearn.ensemble import RandomForestClassifier 


rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1) 


rnd_clf.fit(X_train, y_train) 


y_pred_rf = rnd_clf.predict(x_test) 


除了 少数 例外 ，RandomForestClassifier 具 有 DecisionTreeClassifier 的 所 
有 超 参 数 ， 以 及 BaggingClassifier 的 所 有 超 参 数 ， 前 者 用 来 控制 树 的 生 
长 ， 后 者 用 来 控制 集成 本 身 。 B 


随机 森林 在 树 的 生长 上 引入 了 更 多 的 随机 性 : 分 袭 世 点 时 不 再 是 搜索 
最 好 的 特征 (参见 第 6 章 ) ， 而 是 在 一 个 随机 生成 的 特征 子 集 里 搜索 最 
好 的 特征 。 这 导致 决策 树 具 有 更 大 的 多 样 性 ， (再 一 次 ) 用 更 高 的 偏 
差 换取 更 低 的 方 莽 ， 总 之 ， 还 是 产生 了 一 个 整体 性 能 更 优 的 模型 。 下 
面 的 BaggingClassifier 大 致 与 前 面 的 RandomForestClassifier 相 同 ; 


bag_clf = BaggingClassifier( 
DecisionTreeClassifier(splitter="random", max_leaf_nodes=16), 


n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1 


极端 随机 树 


如 前 所 述 ， 随 机 森林 里 单 棵 树 的 生长 过 程 中 ， 每 个 节点 在 分 裂 时 仅 考 
虑 到 了 一 个 随机 子 集 所 包含 的 特征 。 如 采 我 们 对 每 个 特征 使 用 随机 畏 
值 ， 而 不 是 搜索 得 出 的 最 佳 立 值 〈 如 常规 决策 树 ) ， 则 可 能 让 决策 树 
生长 得 更 加 随机 。 


这 种 极端 随机 的 决策 树 组 成 的 森林 ， 被 称 为 极端 随机 树 ( 
http:/goo.gVRHGEA4 ) RIH ( 或 简称 Extra-Trees) 。 同 样 ， 它 也 是 
以 更 高 的 偏差 换取 了 更 低 的 方差 。 极 端 随机 树 训练 起 来 比 常规 随机 森 
林 要 快 很 多 ， 因 为 在 每 个 节点 上 找到 每 个 特征 的 最 佳 闵 值 是 决策 树 生 
长 中 最 耗 时 的 任务 之 一 。 


使 用 Scikit-Learn 的 ExtraTreesClassifier 可 以 创建 一 个 极端 随机 树 分 类 
厂 。 它 的 API 与 RandomForestClassifier 相 同 。 同 理 ，ExtraTreesRegressor 
与 RandomForestRegressor 的 API 也 相同 。 


RK 通常 来 说 ， 很 难 预先 知道 一 个 RandomForestClassifier 是 否 会 比 一 个 
ExtraTreesClassifier E 4f zk ze E 2 °。 了 唯一 的 方 Y 去 是 两 种 都 县 试 一 i, YR 
后 使 用 交叉 验证 《还 需要 使 用 网 格 搜索 调整 超 参数 ) 进行 比较 。 


等 征 重要 性 


最 后 ， 如 果 你 查看 单个 决 案 树 会 发 现 ， 重 要 的 特征 更 可 能 出 现在 靠近 
根 蔬 点 的 位 置 ， 而 不 重要 的 特征 通 稍 出 现在 靠近 时 和 点 的 位 置 (甚至 
根本 不 出 现 )  。 因 此 ， 通 过 计算 一 个 特征 在 森林 中 所 有 树 上 的 平均 深 
度 ， 可 以 估算 出 一 个 特征 的 重要 程度 。Scikit-Learn 在 训练 结束 后 自动 
计算 每 个 特征 的 重要 性 。 通 过 变量 feature_importances_ 你 就 可 以 访问 到 
这 个 计算 结果 。 例 如 ， 以 下 代码 在 音 尾 花 数 据 集 〈 见 第 4 章 ) 上 训练 了 
一 个 RandomForestClassifier， 并 输出 了 每 个 特征 的 重要 性 。 看 起 来 最 重 
要 的 特征 是 花瓣 长 度 (44%) 和 宽度 (42%) ， 而 花 划 的 长 度 和 宽度 则 
相对 不 那么 重要 (分 别 是 11% 和 2%) : 


>>> from sklearn.datasets import load_iris 


>>> iris = load_iris() 


>>> rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) 


>>> rnd_clf.fit(iris["data"], iris["target"]) 


>>> for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_): 


>>> print(name, score) 


sepal length (cm) 0.112492250999 


sepal width (cm) 0.0231192882825 


petal length (cm) 0.441030464364 


petal width (cm) 0.423357996355 


同样 ， 如 果 你 在 MNIST 数 据 集 ( 见 第 3 章 ) 上 训练 一 个 随机 森林 分 类 
荆 ， 然 后 绘制 其 每 个 像素 的 重要 性 ， 你 将 得 到 如 图 7-6 所 示 的 图 像 。 


不 重要 


图 7-6: MNIST 像 素 位 的 重要 性 〈 根 据 随 机 森林 分 类 器 ) 


所 以 ， 如 果 想 快速 了 解 什么 是 真正 重要 的 特征 ， 随 机 森林 是 一 个 非常 
便利 的 方法 ， 特 别 是 当 你 需要 执行 特征 选择 的 时 候 。 


[1] “Random Decision Forests”, T.Ho (1995) œ 


[2 如果 你 想 要 对 决策 树 之 外 的 东西 进行 装 袋 (bag) 
BaggingClassifierxt A HAY ° 


[3] 有 几 个 值得 注意 的 例外 : 没有 splitter (强制 为 random) ,没有 
presort (强制 为 False) ， 没 有 max samples (强制 为 1.0) ， 没 有 


base_estimator (强制 为 DecisionTreeClassifier 与 给 定 超 参数 ) 。 


[4]_“Extremely randomized trees” , P.Geurts 、D.Ernst 和 L.Wehenkel 
(2005) 。 


EFNA 


提升 法 (Boosting， 最 初 被 称 为 假设 提升 ) 是 指 可 以 将 几 个 弱 学 习 器 结 
合成 一 个 强 学 习 器 的 任意 集成 方法 。 大 多 数 提升 法 的 总 体 思路 是 循环 
训练 预测 器 ， 每 一 次 都 对 其 前 序 做 出 一 些 改正 。 可 用 的 提升 法 有 很 
多 ， 但 目前 最 流行 的 方法 是 AdaBoost (http:/goo.gUOIduRW ) H (H 
适应 提升 法 ，Adaptive Boosting 的 缩写 ) 和 梯度 提升 。 我 们 先 从 
AdaBoost 开 始 介绍 。 


AdaBoost 


Br TOU ae TE PP ET AERIS, Bie E MERI 
足 的 训练 实例 。 从 而 使 新 的 预测 器 不 断 地 越 来 越 专注 于 难 缠 的 问题 ， 
这 就 是 AdaBoost 使 用 的 技术 。 


例如 ， 要 构建 一 个 AdaBoost 分 类 器 ， 首 先 需 要 训练 一 个 基础 分 类 器 
(比如 决策 树 ) ， 用 它 对 训练 集 进 行 预测 。 然 后 对 错误 分 类 的 训练 实 

例 增 加 其 相对 权重 ， 接 着 ， 使 用 这 个 最 新 的 权重 对 第 二 个 分 类 器 进行 

人 
YURI7-7) 。 


图 7-7: AdaBoost 循 环 训练 ， 实 例 权 重 不 断 更 新 
图 7-8 显 示 了 在 卫星 数据 集 上 5 个 连续 的 预测 器 的 决策 边界 (在 本 例 中 ， 


每 个 预测 器 都 是 使 用 RBF 核 画 数 的 高 度 正则 化 的 SVM 分 类 器 站) 。 第 
一 个 分 类 需 产 生 了 许多 错误 实例 ， 所 以 这 些 实例 的 权重 得 到 提升 。 
此 第 二 个 分 类 器 在 这 些 实例 上 的 表现 有 所 提升 ， 然 后 第 三 个 、 第 四 
eae ARARE RA, ME A A LE PA RF 
(BU REVO MGT — FER DT RAISE ITE) 。 可 以 看 出 ， 
AdaBoost 这 种 依 序 循环 的 学 习 技术 跟 梯度 下 降 有 一 些 异 曲 同 工 之 处 ， 
差别 只 在 于 一 一 不 再 是 调整 单个 预测 器 的 参数 使 成 本 函数 最 小 化 ， 而 
古 不 断 在 集成 中 加 入 预测 侨 ， 使 模型 越 来 越 好 。 
一 旦 全 部 预测 器 训练 完成 ， 集 成 整体 做 出 预测 时 就 跟 bagging 或 pasting 
方法 一 样 了 ， 除 非 预 测 右 有 不 同 的 权重 ， 因 为 它们 总 的 准确 率 是 基于 
加 权 后 的 训练 集 。 


Pd 这 种 依 序 学 习 技 术 有 一 个 重要 的 缺陷 就 是 无 法 并 行 (哪怕 只 是 一 
部 分 ) ， 因 为 每 个 预测 器 只 能 在 前 一 个 预测 器 训练 完成 并 评估 之 后 才 
oe 。 因此， 在 拓展 方面 ， 它 的 表现 不 如 bagging 和 pasting 方 
Hos 


learning rate=-0.5 
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图 7-8: 连续 预测 需 的 决策 边界 


我 们 来 仔细 看 看 AdaBoost 算 法 。 每 个 实例 的 权重 w O 最 初 设置 为 
lm。 第 一 个 预测 需 训 练 后 ， 计 算 其 加 权 误 莽 率 ri ， 见 公式 7-1。 


公式 7-1， 第 j 个 预测 器 的 加 权 误 差 率 


1 = (Ap, ?是 第 ;人 预测 器 对 第 个 实例 做 册 的 法 江 ) 


预测 器 的 权重 oj 通过 公式 7-2 来 计算 ， 其 中 n 是 学 习 率 超 参 数 (默认 为 
1) 。 中 预测 器 的 准确 率 越 高 ， 其 权重 就 越 高 。 如 果 它 只 是 随机 猜测 ， 
则 其 权重 接近 于 零 。 但 是 ， 如 果 大 部 分 情况 下 它 都 是 错 的 (也 就 是 准 
确 率 比 随机 猜测 还 低 ) ， 那 么 它 的 权重 为 负 。 


公式 7-2: 预测 器 权重 
| — 7, 


J 


| 
m log 


接 下 来 ， 使 用 公式 7-3， 对 实例 的 权重 进行 更 新 ， 也 就 是 提升 被 错误 分 
类 的 实例 的 权重 。 


公式 7-3: 权重 更 新 规则 


epla) (FOA) 


然后 将 所 有 实例 的 权重 归 一 化 ( 即 除 以 各 ) 。 

最 后 ， 使 用 更 新 后 的 权重 训练 一 个 新 的 预测 器 ， 然 后 重复 整个 过 程 
(计算 新 预测 器 的 权重 ， 更 新 实例 权重 ， 然 后 对 另 一 个 预测 器 进行 训 | 
练 ， 等 等 ) 。 当 到 达 所 需 数量 的 预测 器 ， 或 得 到 完美 的 预测 器 时 ， 算 
法 停止 。 

预测 的 时 候 ，AdaBoost 就 是 简单 地 计算 所 有 预测 器 的 预测 结果 ， 并 使 
用 预测 器 权重 o 对 它们 进行 加 权 。 最 后 ， 得 到 大 多 数 加 权 投 票 的 类 别 
就 是 预测 器 给 出 的 预测 类 别 ( 见 公式 7-4) 。 


公式 7-4: AdaBoost 预 测 


y 
y(x) = argnax Y a (AP NAM BACE) 
m2 


y(x) =k 


Scikit-Learn 使 用 的 其 实 是 AdaBoost 的 一 个 多 分 类 版 本 ， 叫 作 SAMME ( 
http://go0.gVEji2vR.) [H (基于 多 类 指数 损失 函数 的 逐步 添加 模型 )。 
当 只 有 两 个 类 别 时 ，SAMME 即 等 同 于 AdaBoost。 此 外 ， 如 果 预 测 器 可 


以 估算 类 别 概率 ( 即 具有 predict_proba () 方法 ) ，Scikit-Learn 会 使 用 
一 种 SAMME 的 变 体 ， 称 为 SAMME.R (R 代 表 “Real”) ， 它 依赖 的 是 类 
别 概率 而 不 是 类 别 预 测 ， 通 常 表现 更 好 。 

下 面 的 代码 使 用 Scikit-Learn 的 AdaBoostClassifier (正如 你 猜想 的 ， 还 有 
一 个 AdaBoostRegressor 类 ) 训练 了 一 个 AdaBoost 分 类 器 ， 它 基于 200 个 
单 层 决策 树 (decision sump) 。 上 顾名思义 ， 单 层 决策 树 就 是 
max_depth=1 的 决策 树 ， 换 言 之 ， 就 是 一 个 决 寅 太 点 加 两 个 叶 广 点。 这 
是 AdaBoostClassifier 默 认 使 用 的 基础 估算 癸 。 


from sklearn.ensemble import AdaBoostClassifier 


ada_clf = AdaBoostClassifier( 
DecisionTreeClassifier(max_depth=1), n_estimators=200, 
algorithm="SAMME.R", learning_rate=0.5 


) 


ada_clf.fit(X train, y_train) 


A 如 果 你 的 AdaBoost 集 成 过 度 拟 合 训练 集 ， 你 可 以 试 试 减 少 估算 器 数 
量 ， 或 是 提高 基础 估算 器 的 正则 化 程度 。 


梯度 提升 


男 一 个 非常 受 欢 迎 的 提升 法 是 梯度 提升 (Gradient Boosting) ° ELER 
AdaBoost 一 样 ， 梯 度 提升 (http:/goo.gVEzw4jL ) 也 是 逐步 在 集成 中 添 
加 预测 器 ， 每 一 个 都 对 其 前 序 做 出 改正 。 不 同 之 处 在 于 ， 它 不 是 像 
AdaBoost 那 样 在 每 个 迭代 中 调整 实例 权重 ， 而 是 让 新 的 预测 器 针对 前 
一 个 预测 器 的 残 差 进行 拟 合 。 


我 们 来 看 一 个 简单 的 回归 示例 ， 使 用 决策 树 作为 基础 预测 器 (梯度 提 
升 当然 也 适用 于 回归 任务 ) ， 这 被 称 为 梯度 树 提升 或 者 是 梯度 提升 回 
归 树 (GBRT) 。 首 先 ， 在 训练 集 《比如 带 噪 声 的 二 次 训练 集 ) 上 拟 合 


一 个 DecisionTreeRegressor: 


from sklearn.tree import DecisionTreeRegressor 


tree_regi = DecisionTreeRegressor(max_depth=2) 


tree_regi.fit(X, y) 


ME, HREAN RE, IRE A DecisionTreeRegressor: 


y2 = y - tree_reg1.predict(X) 
tree_reg2 = DecisionTreeRegressor (max_depth=2) 


tree_reg2.fit(X, y2) 


A, BOTS SM ae eae, VRE =A Ea 


y3 = y2 - tree_reg2.predict(X) 
tree_reg3 = DecisionTreeRegressor(max_depth=2) 


tree_reg3.fit(X, y3) 


现在 ,我 们 有 了 一 个 包含 三 棵 树 的 集成 。 它 将 所 有 树 的 预测 相 加 ， 从 
而 对 新 实例 进行 预测 : 


y_pred = sum(tree.predict(X_new) for tree in (tree_regi, tree_reg2, tree_reg3)) 


图 7-9 的 左 侧 表示 这 三 标 树 单独 的 预测 ， 石 侧 表示 集成 的 预测 。 

行 ， 集 成 只 有 一 株 树 ， 所 以 它 的 预测 与 第 一 棵 树 的 预测 完 SHR» 
AT ETE Pe EVRA — ede 从 右 侧 可 见 ， sents 
WU Se FB TED PER AT ZA e RAE, R= TT MARE RT 
的 残 差 上 训练 的 新 树 ， 集成 的 预测 随 着 新 酝 的 添加 到 簿 渐变 好 。 


训练 GBRT 集 成 有 个 简单 的 方法 ， 束 是 使 用 Scikit-Learn 的 
GradientBoosting-Regressor 类 。 与 RandomForestRegressor 类 似 ， 它 具有 
控制 决策 树 生 长 的 超 参 数 (例如 max_depth、min_samples_leaf 等 ) ， 以 
及 控制 集成 训练 的 超 参 数 ， 例 如 树 的 数量 (n_estimators) 。 以 下 代码 
可 创建 上 面 的 集成 : 


from sklearn.ensemble import GradientBoostingRegressor 


gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0) 


gbrt.fit(X, y) 


残 差 和 树 的 预测 is 集成 预测 


，， 训练 集 ，， 训练 集 
' hoa) 5 = ha )=h (x) A 


一 hoh) thh) 


y-hi(xı)-/(x1) 


图 7-9: 梯度 提升 
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值 ， 比 如 0.1， 则 需要 更 多 的 树 来 拟 合 训练 集 ， 但 是 预测 的 泛 化 效果 通 
党 更 好 。 这 是 一 种 被 称 为 收缩 的 正则 化 技术 。 图 7-10 显 示 了 用 低 学 习 率 
训练 的 两 个 GBRT 集 成 : 左 侧 拟 合 训练 集 的 树 数量 不 足 ， 而 右 侧 拟 合 训 
练 集 的 树 数量 过 多 从 而 导致 过 度 拟 合 。 


要 找到 树 的 最 佳 数 量 ， 可 以 使 用 早期 停止 法 (参见 第 4 章 ) 。 简 单 的 实 
现 方法 就 是 使 用 staged_predict () 方法 : 它 在 训练 的 每 个 阶段 (一 棵 树 
时 ， 两 棵 树 时 ， 等 等 ， 都 对 集成 的 预测 返回 一 个 迭代 器 。 以 下 代码 训 
练 了 一 个 拥有 120 模 树 的 GBRT 集 成 ， 然 后 测量 每 个 训练 阶段 的 验证 误 
I 


AN 


learning rate=0.1, n_estimators=3 learning rate=0.1, n_estimators=200 


0.8 me Eee P| see | 
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图 7-10: GBRT 集 成 一 预测 器 太 少 (ER) 和 预测 需 太 多 AR) 


import numpy as np 
from sklearn.model_selection import train test split 


from sklearn.metrics import mean_squared_error 


X_train, X_val, y_train, y_val = train_test_split(X, y) 


gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120) 


gbrt.fit(X_train, y_train) 


errors = [mean_squared_error(y_val, y_pred) 


for y_pred in gbrt.staged_predict(X_val)] 


bst_n_estimators = np.argmin(errors) 


gbrt_best = GradientBoostingRegressor(max_depth=2,n_estimators=bst_n_estimators) 


gbrt_best.fit(X_train, y_train) 


验证 误差 如 图 7-11 的 左 图 所 示 ， 最 好 的 模型 预测 如 右 图 所 示 。 


验证 误差 最 好 的 模型 (55 棵 树 ) 
0.010 08 
0.7 
0.008 06 
0.5 
0.006 Ks 
03 
use 最 小 误差 0.2 
0.002 0.1 
0.0 
0.000 -0.1 
0 220 40 60 80 100 1% -04 -02 00 02 04 
树 的 数量 


图 7-11: 通过 早期 停止 法 调整 树 的 数量 


实际 上 ， 要 实现 早期 停止 法 ， 不 一 定 需要 先 训 练 大 量 的 树 ， 然 后 再 回 
头 找 最 优 的 数字 ， 还 可 以 真 的 提前 停止 训练 。 设 置 warm_start=True， 
“fit O 方法 被 调用 时 ，Scikit-Learn 会 保留 现 有 的 树 ， 从 而 允许 增 量 
训练 。 以 下 代码 会 在 验证 误差 连续 5 次 迭代 未 改善 和 时， 直接 停止 训练 : 


gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True) 


min_val_error = float("inf") 


error_going up = 0 


for n_estimators in range(1, 120): 


gbrt.n_estimators = n_estimators 


gbrt.fit(X_train, y_train) 
y_pred = gbrt.predict(X_val) 
val_error = mean_squared_error(y_val, y_pred) 
if val_error < min_val_error: 
min_val_error = val_error 
error_going_up = 0 
else: 
error_going_up += 1 
if error_going_up == 5: 


break # early stopping 


GradientBoostingRegressor 类 还 可 以 文 持 超 参数 subsample， 指 定 用 于 训 
练 每 棵 树 的 实例 的 比例 。 例 如 ， 如 果 subsample=0.25， 则 每 棵 树 用 25% 
的 随机 选择 的 实例 进行 训练 。 现 在 你 可 以 猪 到 ， 这 也 是 用 更 高 的 偏差 
换取 了 更 低 的 方差 ， 同 时 在 相当 大 的 程度 上 加 速 了 训练 过 程 。 这 种 技 
术 被 称 为 随机 梯度 提升 。 


` 梯度 提升 也 可 以 使 用 其 他 成 本 函数 ， 通 过 超 参 数 loss 来 控制 《有 关 
更 多 详细 信息 ， 请 参阅 Scikit-Learn 的 文档 ) 。 


[1]_“A Decision-Theoretic Generalization of On-Line Learning and an 
Application to Boosting”, Yoav Freund 和 Robert E.Schapire (1997) ° 


[2] 这 里 只 是 为 了 举例 说 明 。 对 于 AdaBoost 来 说 ，SVM 通 销 不 是 很 好 的 
Ze ATI a 因为 它们 很 慢 ， 并 且 由 于 使 用 了 AdaBoost， 很 容易 不 稳 
KE fe) 


[3] 初始 的 AdaBoost 算 法 不 使 用 学 习 率 超 参数 。 


[4] 更 详细 内 容 可 参考 : “Multi-Class AdaBoost”, J.Zhu“#!A (2006) ° 


[5] 首次 提出 来 自 于 “Arcing the Edge”, L.Breiman ( 1997 ) 
http://statistics.berkeley.edu/sites/default/files/tech-reports/486.pdf ° 
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本 章 我 们 要 讨论 的 最 后 一 个 集成 方法 叫 作 扒 县 法 (stacking) ， 又 称 层 
FZE (http:/goo.gLU9I2NBw ) 。 出 它 基于 一 个 简单 的 想法 : 与 其 
使 用 一 些 简单 的 函数 (比如 硬 投票 ) 来 聚合 集成 中 所 有 预测 器 的 预 
测 ， 我 们 为 什么 不 训练 一 个 模型 来 执行 这 个 聚合 呢 ? 图 7-12 显 示 了 在 新 
实例 上 执行 回归 任务 的 这 样 一 个 集成 。 底 部 的 三 个 预测 器 分 别 预测 了 
不 同 的 值 (3.1、2.7 和 2.9) ， 然 后 最 终 的 预测 器 ( 称 为 混合 器 或 元 学 习 
器 ) 将 这 些 预测 作为 输入 ， 进 行 最 终 预测 (3.0) ° 


训练 混合 器 的 常用 方法 是 使 用 留存 集 。[ 针 我 们 看 看 它 是 如 何 工作 的 。 
oe 第 一 个 子 集 用 来 训练 第 一 层 的 预测 器 
万 多 7-13) ° 
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图 7-12: 通过 混合 预测 右 案 合 预 济 


训练 集 


图 7-13: 训练 第 一 层 


然后 ， 用 第 一 层 的 预测 需 在 第 二 个 (留存 ， 子 集 上 进行 预测 〈 见 图 7- 
14) 。 因 为 预测 器 在 训练 时 从 未 见 过 这 些 实例 ， 所 以 可 以 确保 预测 

ETE” - 那么 现在 对 于 留存 集中 的 每 个 实例 部 有 了 三 个 预测 值 。 
我 们 可 以 使 用 这 些 预 测 值 作为 输入 特征 ， 创 建 一 个 新 的 训练 集 (新 的 
训练 集 有 三 个 维度 ) ， 并 保留 目标 值 。 在 这 个 新 的 训练 集 上 训练 混合 
硬 ， 让 它 学 习 根据 第 一 层 的 预测 来 预测 目标 值 。 


训练 
(聚合 预测 结果 ) 


= 


预测 结果 


图 7-14: 训练 混合 


事实 上 ， 通 过 这 种 方法 可 以 训练 多 种 不 同 的 混合 器 (例如 ， 一 个 使 用 
线性 回归 男 一 个 使 用 随机 森林 回归 ， 等 等 ，: 于 是 我 们 可 以 得 到 一 

个 混合 右 层 。 记 加 在 于 将 训练 集 分 为 三 个 子 集 : 第 一 个 用 来 训练 第 一 
A 第 二 个 用 来 创造 训练 第 二 层 的 新 训练 集 〈 使 用 第 一 层 的 预测 ) ， 
而 第 三 个 用 来 创造 训练 第 三 层 的 新 训练 集 (使 用 第 二 层 的 预测 ) 。 一 
15PTZAN ° 


Ç 
A 


图 7-15: 一 个 多 层 堆 县 集成 的 预测 


不 位 的 是 ，Scikit-Learmn 不 直接 文 持 堆 琶 ， 但 是 目 己 堆 出 stacking 的 实现 
品 并 不 太 难 (参见 接 下 来 的 练习 ) 。 或 者 ， 你 也 可 以 使 用 开源 的 实现 
方案 ， 例 如 brew (可 从 https://github.com/viisar/brew 获得 ) 。 


[1] “Stacked Generalization”, D.Wolpert (1992) 。 
[2] 或 者 使 用 折 外 (out-of-fold) 预测 也 可 以 。 在 某 些 情况 下 ， 这 才 被 称 


AMES (stacking) ， 而 使 用 留存 集 被 称 为 混合 (blending) 。 但 是 对 多 
数 人 而 言 ， 这 二 者 是 同义词 。 


练习 


1. 如 果 你 已 经 在 完全 相同 的 训练 集 上 训练 了 五 个 不 同 的 模型 ， 并 且 它 们 
都 达到 了 95% 的 准确 率 ， 是 否 还 有 机 会 通过 结合 这 些 模型 来 获得 更 好 的 
结果? 如 条 可 以 ， 该 怎么 做 ? 如 琳 不 行 ， 为 什么 ? 


2. 便 投票 分 类 絮 和 软 投票 分 类 絮 有 什么 区 别 ? 


3. 是 否 可 以 通过 在 多 个 服务 器 上 并 行 来 加 速 bagging 集 成 的 训练 ? pasting 
集成 呢 ? boosting kE? 随机 森林 或 stacking 集 成 呢 ? 


4. 包 外 评估 的 好 处 是 什么 ? 


5. 是 什么 让 极端 随机 树 比 一 般 随 机 森林 更 加 随机 ? 这 部 分 增加 的 随机 性 
有 什么 用 ? 极端 随机 树 比 一 般 随 机 森林 快 还 是 慢 ? 


6. 如 果 你 的 AdaBoost 集 成 对 训练 数据 拟 合 不 足 ， 你 应 该 调整 哪些 超 参 
数 ? 怎么 调整 ? 


ee 你 是 应 该 提升 还 是 降低 学 
>] K? 


8. 加 载 MNIST 数 据 集 〈 第 3 章 中 有 介绍 ) ， 将 其 分 为 一 个 训练 集 、 一 个 
验证 集 和 一 个 测试 集 (例如 使 用 40000 个 实例 训练 ，10000 个 实例 验 
证 ， 最 后 10000 个 实例 测试 ) 。 然 后 训练 多 个 分 类 器 ， 比 如 一 个 随机 森 
林 分 类 器 、 一 个 极端 随机 树 分 类 器 和 一 个 SVM。 接 下 来 ， 党 试 使 用 软 
投票 法 或 者 硬 投 票 法 将 它们 组 合成 一 个 集成 ， 这 个 集成 在 验证 集 上 的 
表现 要 胜 过 它们 各 自 单 独 的 表现 。 成 功 找到 集成 后 ， 在 测试 集 上 测 

试 。 与 单个 的 分 类 器 相 比 ， 它 的 性 能 要 好 多 少 ? 


9. 运 行 上 一 个 练习 中 的 单个 分 类 胡 ， 用 验证 集 进行 预测 ， 然 后 用 预测 结 
果 创 建 一 个 新 的 训练 集 ， 新 训练 集中 的 每 个 实例 都 古 一 个 向 量 ， 这 个 
回 量 包含 所 有 分 类 融 对 于 一 张 图 像 的 一 组 预测 ， 目 标 值 是 图 像 的 类 

别 。 共 喜 ， 你 成 功 训 练 了 一 个 混合 器 ， 结 合 第 一 层 的 分 类 级 ， 它 们 一 
起 构成 了 一 个 stacking 集 成 。 现 在 在 测试 集 上 评估 这 个 集成 。 对 于 测试 
集中 的 每 张 图 像 ， 使 用 所 有 的 分 类 硕 进 行 预测 ， 然 后 将 预测 结 末 提供 
给 混合 硕 ， 得 到 集成 的 预测 。 与 前 面 训练 的 投票 分 类 右 相 比 ， 这 个 集 
成 的 结 采 如 何 ? 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 
第 8 草 “” 降 维 


许多 机 妖 学 习 问 题 涉 及 训练 实例 的 儿 千 甚至 上 百 万 个 特征 。 后 面 我 们 
将 会 看 到 ， 这 不 仅 导 致 训练 非常 缓慢 ， 也 让 我 们 更 加 难以 找到 好 的 解 
决 方案 。 这 个 问题 通 当 被 称 为 维度 的 诅 哗 。 


幸运 的 是 ， 对 现实 世界 的 问题 ， 我 们 一 般 可 以 大 量 减 少 特征 的 数量 ， 
将 坏 手 的 问题 转化 成 容易 解决 的 问题 。 例 如 ，MNIST 图 像 ( 见 第 3 章 介 
绍 ) : 图 像 边 框 的 像素 位 上 几乎 全 是 白色 ， 所 以 我 们 完全 可 以 在 训练 
集中 抛弃 这 些 像 系 位 ， 也 不 会 丢失 太 多 信息 。 多 7-6 也 证 实 了 这 些 像 隶 
对 于 分 类 任务 来 说 完全 无 足 轻重 。 此 外 ， 两 个 相 邻 像素 通常 是 高 度 相 
关 的 : 如 果 将 它们 合并 成 一 个 像素 (例如 ， 取 两 个 像素 强度 的 平均 
值 ) ， 也 不 会 丢失 太 多 信息 。 


入、 数据 降 维 确 实 会 入 失 些 信息 (就 好 比 将 图 像 压缩 为 JPEG 会 降低 
其 质量 一 样 ) ， 所 以 ， 它 虽然 能 够 加 速 训 练 ， 但 是 也 会 轻微 降低 系统 
性 能 。 同 时 它 也 让 流水 线 更 为 复杂 ， 维 护 难度 上 升 。 所 以 ， 如 果 训 练 
太 慢 ， 你 目 先 应 该 性 试 的 还 是 继续 使 用 原始 数据 ， 然 后 再 考虑 数据 降 
维 。 不 过 在 某 些 情况 下 ， 降 低 训 练 数据 的 维度 可 能 会 滤 除 掉 一 些 不 必 
0 ee eee ee 
训练 ) 。 


除了 加 快 训 练 ， 降 维 对 于 数据 可 视 化 (或 称 DataViz) 也 是 非常 有 用 
的 。 将 维度 降 到 两 个 (或 三 个 ) ， 束 可 以 在 图 形 上 绘制 出 高 维 训练 
集 ， 通 过 视觉 来 检测 模式 ， 常 第 可 以 获得 一 些 十 分 重要 的 洞察 ， 比 如 
说 聚 类 。 

本 章 将 探讨 维度 的 诅咒 ， 大 致 了 解 高 维 空 间 中 发 生 的 事情 。 然 后 ， 我 
们 将 介绍 两 种 主要 的 数据 降 维 方法 (投影 和 流 形 学 习 ) ， 并 学 习 现 在 
最 流行 的 三 种 数据 降 维 技 术 : PCA ` Kernal PCA 以 及 LLE。 
维度 的 诅咒 


我 们 太 习 惯 三 维 空间 的 生活 [由 ， 所 以 当 我 们 试图 去 想象 一 个 高 维 空间 
时 ， 我 们 的 直觉 思维 很 难 成 功 。 即 使 是 一 个 基本 的 四 维 超 立 方 体 (BS 


1) ， 我 们 也 很 难 在 脑海 中 想象 出 来 ， 更 不 用 说 在 一 个 千 维 空间 


见 图 8- 
中 弯曲 的 200 维 椭圆 体 。 


图 8-1: 点 、 线 、 面 、 立 方 体 和 超 立 方 体 (从 零 维 到 四 维 超 立 方 体 ) 2 


事实 证 明 ， 在 高 维 空间 中 ， 许 多 事物 的 行为 都 过 然 不 同 。 例 如 ， 如 果 
你 在 一 个 单位 平面 (1x1 的 正方 形 ) 内 随机 选择 一 个 点 ， 那 么 这 个 点 离 
边界 的 距离 小 于 0.001 的 概率 只 有 约 0.4% (也 就 是 说 ， 一 个 随机 的 点 不 
大 可 能 刚好 位 于 某 个 维度 的 “极端 ") 。 但 是 ， 在 一 个 10000 维 的 单位 超 
立方 体 (1x1...x1 立 方 体 ， 一 万 个 1) 中 ， 这 个 概率 大 于 99.999999% © 
高 维 超 立方 体 中 大 多 数 点 都 非常 接近 边界 。 l 


还 有 一 个 更 磋 烦 的 区 别 ， 如 果 你 在 单位 平面 中 随机 挑 两 个 点 ， 这 两 个 
点 之 间 的 平均 距离 大 约 为 0.52。 如 果 在 三 维 的 单位 立方 体 中 随机 挑 两 个 
点 ， 两 点 之 间 的 平均 距离 大 约 为 0.66。 但 是 ， 如 果 在 一 个 100 万 维 的 超 
立方 体 中 随机 挑 两 个 点 呢 ? 不 管 你 相信 与 否 ， 平 均 距 离 大 约 为 408.25 
( 约 等 于 41 000 000/6) ! 这 是 非常 违背 直觉 的 : 位 于 同一 个 单位 超 
立方 体 中 的 两 个 点 ， 怎 么 可 能 距离 如 此 之 远 ? 这 个 事实 说 明 高 维 数据 
RARA EET AY: 大 多 数 训练 实例 可 能 彼此 之 间 相 距 很 
远 。 当 然 ， 这 也 意味 着 新 的 实例 很 可 能 远离 任何 一 个 训练 实例 ， 导 致 
预测 跟 低 维度 相 比 ， 更 加 不 可 靠 ， 因 为 它们 基于 更 大 的 推测 。 人 簿 而 言 
之 ， 训 练 集 的 维度 越 高 ， 过 度 拟 合 的 风险 就 越 大 。 


理论 上 来 说 ， 通 过 增 大 训练 集 ， 使 训练 实例 达到 足够 的 密度 ， 是 可 以 
解 开 维度 的 诅咒 的 。 然 而 不 幸 的 是 ， 实 践 中 ， 要 达到 给 定 密度 所 需要 
的 训练 实例 数量 随 着 维度 增加 呈 指 数 式 上 升 。 仅 仅 100 个 特征 下 《 远 小 
于 MNIST 问 题 ) ， 要 让 所 有 训练 实例 (假设 在 所 有 维度 上 平均 分 布 

之 间 的 平均 距离 小 于 0.1， 你 需要 的 训练 实例 数量 就 比 可 观察 宇宙 中 的 
原子 数量 还 要 多 。 


[1 好 吧 ， 如 果 算 上 时 间 就 是 四 维 ， 或 者 如 果 你 是 个 字符 串 理 论 家 ， 还 
可 以 再 高 儿 个 维度 。 


[2]. 在 http:/goo.gVOM7ktJ 上 可 以 观看 一 个 投影 到 三 维 空间 的 旋转 超 立 
方 体 。 图 片 由 维基 百科 用 户 NerdBoy1932 提 供 (Creative Commons BY- 
SA 3.0 ( https://creativecommons.org/licenses/bysa/3.0/) ) ， 转 载 目 
https://en.wikipedia.org/wiki/Tesseract ° 


[3] 趣味 事实 : 只 要 你 考虑 足够 多 的 维度 ， 你 所 知道 的 每 个 人 ， 至 少 在 
某 一 个 维度 上 ， 都 可 能 算是 个 极端 主义 者 〈 比 如 ， 他 们 在 咖啡 里 放 多 


OE 


效 据 降 维 的 主要 方法 


在 我 们 深入 了 解 具体 的 降 维 算法 之 前 ， 我 们 先 来 看 看 降 维 的 两 种 主要 
方法 : 投影 和 流 形 学 习 。 


投影 


在 大 多 数 现 实 世界 的 问题 里 ， 训 练 实例 在 所 有 维度 上 并 不 是 均匀 分 布 
的 。 许 多 特征 几乎 是 不 变 的 ， 也 有 许多 特征 是 高 度 相关 联 的 (如 前 面 
讨论 的 MNIST 数 据 集 ) 。 因 此 ， 高 维 空间 的 所 有 训练 实例 实际 上 (或 
近似 于 ) 受 一 个 低 得 多 的 低 维 子 空间 所 影响 。 这 听 起 来 很 抽象 ， 所 以 
我 人 来 看 个 例子 。 在 图 8-2 中 ， 你 可 以 看 到 一 个 由 圆圈 表示 的 3D 数 据 


图 8-2: 3D 数 据 集 和 2D 子 空间 


注意 看 ， 所 有 的 训练 实例 都 暴 换 着 一 个 平面 : 这 就 是 高 维 (3D) 空间 
的 低 维 (2D) 子 空 间 。 现 在 ， 如 果 我 们 将 每 个 训练 实例 垂直 投影 到 这 
个 子 空间 (如 图 中 实例 到 平面 之 间 的 短线 所 示 ) ， 我 们 将 得 到 如 图 8-3 
所 示 的 新 2D 数 据 集 。 我 们 已 经 将 数据 集 维度 从 三 维 降 到 了 二 维 。 注 
意 ， 图 中 的 轴 对 应 的 是 新 特征 z1 和 z 。 (平面 上 投影 的 坐标 ) 。 


图 8-3: 投影 后 产生 的 新 2D 数 据 集 


不 过 投影 并 不 总 是 降 维 的 最 佳 方法 。 在 许多 情况 下 ， 子 空间 可 能 会 这 
曲 或 转动 ， 比 如 图 8-4 所 示 的 著名 的 瑞士 卷 玩 具 数 据 集 。 


图 8-4: 瑞士 卷 数 据 集 


简单 地 进行 平面 投影 (例如 放弃 x3) 会 直接 将 瑞士 卷 的 不 同 层 压 局 在 
一 起 ， 如 图 8-5 的 左 图 所 示 。 但 是 你 真正 想 要 的 是 将 整个 瑞士 卷 展开 铺 
平 以 后 的 2D 数 据 集 ， 如 图 8-5 的 右 图 所 示 。 
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图 8-5: 投影 到 平面 (£) 和 展开 瑞士 卷 〈 右 ) 
流 形 学 习 


瑞士 卷 束 是 二 维 流 形 的 一 个 例子 。 人 简单 地 说 ，2D 流 形 束 吓 一 个 能 够 在 
更 高 维 空间 里 面 弯曲 和 扭转 的 2D 形 状 。 更 概括 地 说 ，d 维 流 形 就 是 n 
(HA, d<n) 维 空间 的 一 部 分 ， 局 部 类 似 于 一 个 d 维 超 平面 。 在 瑞士 
卷 的 例子 中 ，d=2，n=3: 它 局 部 类 似 于 一 个 2D 平 面 ， 但 是 在 第 三 个 维 
度 上 卷 起 。 


许多 降 维 算法 是 通过 对 训练 实例 进行 流 形 建 模 来 实现 的 ， 这 被 称 为 流 
形 学 习 。 它 依赖 于 流 形 假设 ， 也 称 为 流 形 假说 ， 认 为 大 多 数 现实 世界 
的 高 维度 数据 集 存 在 一 个 低 维度 的 流 形 来 重新 表示 。 这 个 假设 通 向 是 


和 赁 经 难 观 察 的 。 


再 次 说 到 MNIST 数 据 集 : 所 有 手写 的 数字 图 像 都 有 一 些 相似 之 处 。 它 
们 由 相连 的 线条 组 成 ， 边 界 都 是 日 色 的 ， 或 多 或 少 是 居中 的 ， 等 等 。 
如 采 你 随机 生成 图 像 ， 只 有 人 少 到 不 能 再 少 的 一 部 分 可 能 看 起 来 像 手写 
数字 。 也 束 是 说 ， 如 果 你 要 创建 一 个 数字 图 像 ， 你 拥有 的 自由 度 要 远 
远 低 于 允许 你 创建 任意 图 像 的 自由 度 。 而 这 些 限 制 正 倾向 于 将 数据 集 
挤 压 成 更 低 维度 的 流 形 。 


流 形 假设 通常 还 伴随 着 一 个 隐 含 的 假设 ， 如 果 能 用 低 维 空间 的 流 形 表 
示 ， 手 头 的 任务 (例如 分 类 或 者 回归 ) 将 变 得 更 简单 。 例 如 ， 图 8-6 的 
上 面 一 行 ， 瑞 士 卷 被 分 为 两 类 ，3D 空 间 中 (左上) 决策 边界 将 会 相当 
复杂 ， 但 是 在 展开 的 2D 流 形 空间 右上) PRAGA ae 
但 是 ， 这 个 假设 并 不 总 是 成 立 。 例 如 ， 图 8-6 的 底 行 ， 决 策 边 界 在 x ; =5 
处 ， 在 原始 的 3D 空 间 中 ， 这 个 边界 看 起 来 非常 简单 (一 个 垂直 的 平 
面 ) ， 但 是 在 展开 的 流 形 中 ， 决 策 边界 看 起 来 反而 更 为 复杂 (四 个 独 
立 线段 的 集合 ) 。 

简 而 言 之 ， 在 训练 模型 之 前 降低 训练 集 的 维度 ， 肯 定 可 以 加 快 训练 束 
度 ， 但 这 并 不 总 是 会 导致 更 好 或 更 简单 的 解决 方案 ， 它 取决 于 数据 
希望 现在 你 对 于 维度 的 诅咒 有 了 一 个 很 好 的 理解 ， 也 知道 降 维 算法 是 
怎么 对 付 它 的 ， 特 别 是 当 流 形 假设 成 立 的 时 候 ， 应 该 怎么 处 理 。 本 章 
剩余 部 分 将 逐一 介绍 几 个 最 流行 的 算法 。 


图 8-6: 决策 边界 不 总 是 维度 越 低 越 简单 


PCA 


主 成 分 分 析 (PCA) 是 迄今 为 止 最 流行 的 降 维 算 法 。 它 先是 识别 出 最 
接近 数据 的 超 平面 ， 然 后 将 数据 投影 其 上 。 


CREB ETE 


将 训练 集 投影 到 低 维 超 平面 之 前 ， 需 要 选择 正确 的 超 平面 。 例 如 图 8-7 
的 左 图 代表 一 个 简单 的 2D 数 据 集 ， 沿 三 条 不 同 的 轴 ( 即 一 维 超 平 
面 ) 。 右 图 是 将 数据 集 映 射 到 每 条 轴 上 的 结果 。 正 如 你 所 见 ， 在 实 线 
上 的 投影 保留 了 最 大 的 差异 性 ， 而 点 线 上 的 投影 只 保留 了 非 芝 小 的 郑 
Frere, RAR EAR ARTE o 
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图 8-7: 选择 投影 的 于 至 间 


选择 保留 最 大 差异 性 的 轴 看 起 来 比较 合理 ， 因 为 它 可 能 比 其 他 两 种 投 
有 影 丢失 的 信息 更 少 。 要 证 明 这 一 选择 ， 还 有 一 种 方法 ， 比 较 原 始 数 据 
集 与 其 轴 上 的 投影 之 间 的 均 方 距离 ， 使 这 个 均 方 距离 最 小 的 轴 是 最 合 
理 的 选择 ， 也 就 是 实 线 代 表 的 轴 。 这 也 正 是 PCA 背 后 的 简单 思想 ( 
http://goo.gl/gbNo1D ) ° MH 
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主 成 分 分 析 (PCA) 可 以 在 训练 集中 识别 出 哪 条 轴 对 差异 性 的 贡献 度 
最 高 。 在 图 8-7 中 ， 即 是 由 实 线 表示 的 轴 。 同 时 它 也 找 出 了 第 二 条 轴 ， 
它 对 剩余 差异 性 的 贡献 度 最 高 ， 与 第 一 条 轴 垂 直 。 因 为 这 个 例子 是 二 
维 的 ， 所 以 除了 这 条 点 线 再 没有 其 他 。 如 有 果 有 是 在 更 高 维 数据 集中 ， 
PCA 还 会 找到 与 前 两 条 都 正 交 的 第 三 条 轴 ， 以 及 第 四 条 、 第 五 条 ， 等 
等 一 一 轴 的 数量 与 数据 集 维度 数量 相同 。 


正 交 的 箭头 所 示 ， 第 三 个 主 成 分 则 是 垂直 于 平面 《向 上 或 向 下 ) 。 


W 成 分 的 方 回 是 不 稳定 的 : 如 果 你 稍微 打 乱 训练 集 ， 然 后 重新 运行 
PCA， 部 分 新 的 主 成 分 可 能 指 辐 跟 原来 的 主 成 分 相反 的 方向 。 但 是 ， 
它们 通常 还 是 在 同一 条 轴 上 。 在 某 些 情况 下 ， 两 条 主 成 分 可 能 会 旋转 
甚至 互 换 ， 但 是 它们 定义 的 平面 还 是 不 变 。 

所 以 怎么 找到 训练 集 的 主 成 分 呢 ? 还 好 有 一 种 标准 矩阵 分 解 技术 ， 叫 
作 奇 异 值 分 解 (SVD) 。 它 可 以 将 训练 集 和 矩阵 Xx 分 解 成 三 个 矩阵 的 点 积 
Uy>:V1， 其 中 V1? 正 包含 我 们 想 要 的 所 有 主 成 分 ， 如 公式 8-1 所 示 。 


公式 8-1: 主 成 分 第 阵 


y'= C; C2 ° C, 
o | 


下 面 的 Python 代码 使 用 NumPy 的 svd () KARRAR AAE 
成 分 ， 并 提取 前 两 个 : 


X_centered = X - X.mean(axis=0) 


U, s, V = np.linalg.svd(X_centered) 


c1 = V.T[:, 0] 


c2 = V.T[:, 1] 


S. PCA 假 设 数据 集 围绕 原点 集中 。 所 以 我 们 看 到 的 Scikit-Learn 的 
PCA 类 将 会 蔡 你 处 理 数据 集中 。 但 是 ， 如 果 你 是 自己 实现 PCA (比如 
前 面 的 示例 ) ， 或 者 使 用 其 他 库 上 时， 不 要 起 记 先 将 数据 集中 。 

低 维度 投影 

一 旦 确定 了 所 有 主 成 分 ， 束 可 以 将 数据 集 投影 到 由 前 d 个 主 成 分 定义 的 
超 平 面 上 ， 从 而 将 数据 集 的 维度 降 到 d 维 。 这 个 超 平 面 的 选择 ， 能 确保 
投影 保留 尽 可 能 多 的 差异 性 。 例 如 ， 在 图 8-2 中 ，3D 数 据 集 投影 到 由 前 
两 个 主 成 分 定义 的 2D 平 面 上 ， 就 保留 了 原始 数据 集 的 大 部 分 差异 。 
此 ，2D 投 影 看 起 来 非常 像 原 始 的 3D 数 据 集 。 


要 将 训练 集 投影 到 超 平 面 上 ， 简 单 地 计算 训练 集 矩 阵 X 和 和 矩阵 W q AIA 
积 即 可 ，W 4 是 包含 前 d 个 主 成 分 的 矩阵 ( 即 由 矩阵 V1 的 前 d 列 组 成 的 
JERE) ， 参 见 公式 8-2。 


公式 8-2: 将 训练 集 投影 到 低 维 度 
入 =- X-W 
d 


以 下 Python 代码 将 训练 集 投影 到 由 前 两 个 主 成 分 定义 的 平面 上 : 


d-pro] 


W2 = V.T[:, :2] 


X2D = X_centered.dot(w2) 


好 了 ， 现 在 你 该 知道 如 何在 保留 尽 可 能 多 差异 性 的 同时 ， 将 任意 数据 
集 降低 到 任意 维度 。 


使 用 Scikit-Learn 
跟 我 们 之 前 一 样 ，Scikit-Learn 的 PCA 类 也 使 用 SVD 分 解 来 实现 主 成 分 


分 析 。 以 下 代码 应 用 PCA 将 数据 集 的 维度 降 到 二 维 (注意 它 会 自动 处 
理 数据 集中 ) : 


from sklearn.decomposition import PCA 


pca = PCA(n_components = 2) 


X2D = pca.fit_transform(X) 


将 PCA 转 换 絮 应 用 到 数据 集 之 后 ， 你 可 以 通过 变量 components 来 访问 
主 成 分 〈 它 包含 的 主 成 分 是 水 平 回 量 ， 因 此 举例 来 说 ， 第 一 个 主 成 分 
即 等 于 pca.components_.T[: ，0]) 。 


方 过 解释 率 


另 一 个 非常 有 用 的 信息 是 每 个 主 成 分 的 方差 解释 率 ， 它 可 以 通过 变量 
explained_variance_ratio_ 获得 。 它 表示 每 个 主 成 分 轴 对 整个 数据 集 的 方 
ae 。 例如， 我 们 看 图 8-2 所 示 的 3D 数 据 集中 前 两 个 主 成 分 的 方 
Ae PEASE 


>>> print(pca.explained_variance_ratio_) 


array([ ©.84248607, 0.14631839]) 


这 告诉 我 们 ， 数 据 集 方差 的 84.2% 由 第 一 条 轴 贡 献 ，14.6% 来 自 于 第 二 
剩 下 给 第 三 条 轴 的 还 不 到 1.2%， 所 以 有 理由 认为 它 可 能 没有 什 
人 信息。 


选择 正确 数量 的 维度 


除了 武断 地 选择 有 要 降 至 的 维度 数量 ， 通 常 来 说 更 好 的 办 法 是 将 靠 前 的 
主 成 分 方 莽 解释 率 依次 相 加 ， 直 到 得 到 足够 大 比例 的 方差 (例如 
95%) ， 这 时 的 维度 数量 就 是 很 好 的 选择 。 当 然 ， 除 非 你 正在 为 了 数据 
可 视 化 而 降 维 一 一 这 种 情况 下 ， 通 常会 直接 降 到 二 维 或 二 维 。 


下 面 的 代码 计算 PCA 但 是 没有 降 维 ， 而 是 计算 若 要 保留 训练 集 方差 的 
95% 所 需要 的 最 低 维 度数 量 : 


pca = PCA() 
pca.fit(X) 
cumsum = np.cumsum(pca.explained_variance_ratio_) 


d = np.argmax(cumsum >= 0.95) + 1 


然后 ， 你 就 可 以 设置 h_components=d， 再 次 运行 PCA。 不 过 还 有 一 个 更 
好 的 方法 : 不 需要 指定 保留 主 成 分 的 数量 ， 你 可 以 直接 将 n_components 
设置 为 0.0 到 1.0 之 间 的 浮 点 数 ， 表 示 硕 望 保留 的 方差 比 : 


pca = PCA(n_components=0.95) 


X_reduced = pca.fit_transform(X) 


另外 ， 还 可 以 将 解释 方差 绘制 成 关于 维度 数量 的 函数 At cumsum Bll 
可 ， 见 图 8-8) 。 曲 线 通常 都 会 有 一 个 拐点 ， 说 明 方 差 停止 快速 增长 。 
你 可 以 将 其 视 为 数据 集 的 本 征 维 数 。 从 本 例 中 可 以 看 出 ， 将 维度 数量 
降低 至 100 维 ， 不 会 损失 太 多 的 解释 方才 。 
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图 8-8: PER Ae eT EL 
PCA 压 缩 


显然 ， 降 维 之 后 训练 集 丘 用 的 空间 要 小 得 多 。 例 如 ， 对 MNIST 效 据 集 
应 用 主 成 分 分 析 ， 然 后 保留 其 方差 的 95%。 你 会 发 现 ， 原 来 每 个 实例 的 
784 个 特征 变 得 只 有 150 多 个 特征 。 所 以 这 保留 了 绝 大 部 分 差异 性 的 同 
时 ， 数 据 集 的 大 小 变 为 不 到 原始 的 20%! 这 是 一 个 合理 的 压缩 比 ， 你 可 
以 看 看 它 如 何 极 大 提升 分 类 算法 〈 例 如 SVM 分 类 器 ) 的 速度 。 


在 PCA 投 影 上 运行 投影 的 逆转 换 ， 也 可 以 将 缩小 的 数据 集 解 压缩 回 784 
维 数据 集 。 当 然 ， 你 得 到 的 并 非 原始 的 数据 ， 因 为 投影 时 损失 了 一 部 
分 信息 (5% 被 丢弃 的 方差 ) ， 但 是 它 很 大 可 能 非常 接近 于 原始 数据 。 
原始 数据 和 重建 数据 (压缩 之 后 解压 缩 ) 之 间 的 均 方 距离 ， 被 称 为 重 
建 误差 。 例 如 ， 以 下 代码 将 MNIST 数 据 集 压缩 到 154 维 ， 然 后 使 用 
inverse_transform () 方法 将 其 解压 缩 回 784 维 。 图 8-9 显 示 了 原始 数据 
集 的 部 分 数字 (A)  ， 以 及 这 些 数字 经 过 压缩 和 解压 缩 之 后 的 图 像 。 
可 以 看 出 图 像 质量 有 轻微 损伤 ， 但 是 数字 基本 完好 无 损 。 


原始 压缩 后 
| 上 DOT 1414077 
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图 8-9:，MNIST 数 据 集 压 缩 一 ”保留 95% 的 方差 


pca = PCA(n_components = 154) 
X_mnist_reduced = pca.fit_transform(X_mnist) 


X_mnist_recovere d = pca.inverse _transform(X_mnist_reduced) 


逆转 换 的 方程 如 公式 8-3 所 示 。 
公式 8-3: PCA 逆 转换 ， 回 到 原始 维度 


X 


曾 量 PCA 


recovered 


By 


前 面 关 于 主 成 分 分 析 的 种 种 实现 ， 问 题 在 于 ， 它 需要 整个 训练 集 都 进 
入 内 存 ， 才 能 运行 SVD 算 法 。 和 幸运 的 是 ， 我 们 有 增 量 主 成 分 分 析 
(IPCA) 算法 : 你 可 以 将 训练 集 分 成 一 个 个 小 批量 ， 一 次 给 IPCA 算 法 
喂 一 个 。 对 于 大 型 训练 集 来 说 ， 这 个 方法 很 有 用 ， 并 且 还 可 以 在 线 应 
用 PCA 〈 也 就 是 新 实例 产生 时 ， 算 法 开始 运行 ) 


以 下 代码 将 MNIST 数 据 集 分 成 100 个 小 批量 (使 用 NumPy 的 array_split 
O KZO ， 将 它们 提供 给 Scikit-Learn 的 IncrementalPCA ( 
http:/goo.gVFmdhUP ) [个 ， 将 数据 集 降 到 154 维 ( 跟 之 前 一 样 ) 。 注 
意 ， 你 必须 为 每 个 小 批量 调用 partial_fit O 方法 ， 而 不 是 之 前 整个 训 
练 集 的 fit O 方法 : 


from sklearn.decomposition import IncrementalPCA 


n_batches = 100 
inc_pca = IncrementalPCA(n_components=154) 
for X_batch in np.array_split(X_mnist, n_batches): 


inc_pca.partial_fit(X_batch) 


X_mnist_reduced = inc_pca.transform(X_mnist) 


或 者 ， 你 也 可 以 使 用 NumPy 的 memmap 类 ， 它 允许 你 巧妙 地 操控 一 个 存 
储 在 人 磁盘 二 进 制 文件 里 的 大 型 数组 ， 束 好 似 它 也 完全 在 内 存 里 一 样 ， 
而 这 个 类 (memmap) 仅 在 需要 时 加 载 内存 中 需要 的 数据 。 由 于 
IncrementalPCA 在 任何 时 间 都 只 使 用 数组 的 一 小 部 分 ， 因 此 内 存 的 使 用 
情况 仍然 受 控 ， 这 时 可 以 调用 常用 的 ft O 方法 ， 如 以 下 代码 所 示 : 


X_mm = np.memmap(filename, dtype="float32", mode="readonly", shape=(m, n)) 


batch_size = m // n_batches 
inc_pca = IncrementalPCA(n_components=154, batch_size=batch_size) 


inc_pca.fit(X_mm) 


随机 PCA 


Scikit-Learn 还 提供 了 另 一 种 实施 PCA 的 选项 ， 称 为 随机 PCA。 这 是 一 
个 随机 算法 ， 可 以 快速 找到 前 d 个 主 成 分 的 近似 值 。 它 的 计算 复杂 度 是 
O (mxd2) +0 (d?) ， 而 不 是 O (mxn?) +0 (n?) ， 所 以 当 d 远 小 
于 n 时 ， 它 比 前 面 提 到 的 算法 要 快 得 多 。 


rnd_pca = PCA(n_components=154, svd_solver="randomized" ) 


X_reduced = rnd_pca.fit_transform(X_mnist) 


[1|_“On Lines and Planes of Closest Fit to Systems of Points in Space” , 
K.Pearson (1901) 。 


[2].ScikittLearn 使 用 的 算法 记录 在 “Incremental Learning for Robust Visual 
Tracking”，D.Ross 等 人 (2007) 。 


核 主 成 分 分 析 


第 5 章 讨 论 了 核 技巧 ， 它 是 一 种 数学 技巧 ， 隐 性 地 将 实例 映射 到 非常 高 
维 的 空间 〈 称 为 特征 空间 ) ， 从 而 使 支持 向 量 机 能 够 进行 非 线 性 分 类 
和 回归 。 回 想 一 下 ， 高 维特 征 空间 的 线性 决策 边界 如 何 对 应 于 原始 空 
间 中 复杂 的 非 线性 决策 边界 。 


事实 证 明 ， 同 样 的 技巧 也 可 应 用 于 PCA， 使 复杂 的 非 线性 投影 降 维 成 
为 可 能 。 这 就 是 所 谓 的 核 主 成 分 分 析 (kPCA) (http/goo.gy51QT5Q 
) 。 叫 它 擅长 在 投影 后 保留 实例 的 集群 ， 有 时 甚至 也 能 展开 近似 于 一 
个 扭曲 流 形 的 数据 集 。 


例如 ， 下 面 的 代码 使 用 Scikit-Learn 的 KernelPCA， 执 行囊 有 RBF 核 函数 
的 kPCA (有 关 RBF 核 和 其 他 核 的 更 多 细节 ， 请 参阅 第 5 章 ) : 


from sklearn.decomposition import KernelPCA 


rbf_pca = KernelPCA(n_components = 2, kernel="rbf", gamma=0.04) 


X_reduced = rbf_pca.fit_transform(X) 
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EFT EH AL Hi] BE EB BL 
由 于 kPCA 是 一 种 无 监督 的 学 习 算法 ， 因 此 没有 明显 的 性 能 指标 来 帮 你 
选择 最 佳 的 核 芳 数 和 超 参数 值 。 而 降 维 通常 是 监督 式 学 习 任 务 (例如 
TR) 的 准备 步骤 ， 所 以 可 以 使 用 网 格 搜索 ， 来 找到 使 任务 性 能 最 佳 
的 核 和 超 参 数 。 例 如 ， 下 面 的 代码 创建 了 一 个 两 步 流水 线 ， 首 先 使 用 
kPCA 将 维度 降 至 二 维 ， 然 后 应 用 逻辑 回归 进行 分 类 。 接 下 来 使 用 
GridSearchCV 为 kPCA 找 到 最 佳 的 核 和 gamma 值 ， 从 而 在 流水 线 最 后 获 
得 最 准确 的 分 类 : 

from sklearn.model_selection import GridSearchcCv 


from sklearn.linear_model import LogisticRegression 


from sklearn.pipeline import Pipeline 


clf = Pipeline([ 
("kpca", KernelPCA(n_components=2) ), 


("log_reg", LogisticRegression() ) 


param_grid = [f{ 
"kpca__gamma": np.linspace(0.03, 0.05, 10), 


"kpca__kernel": ["rbf", "sigmoid" ] 


grid_search = GridSearchCv(clf, param_grid, cv=3) 


grid_search.fit(X, y) 
最 佳 的 核 和 超 参 数 可 以 通过 变量 best_params_ 获 得 : 


>>> print(grid_search.best_params_) 


{'kpca__gamma': ©.043333333333333335, 'kpca__kernel': 'rbf'} 


还 有 一 种 完全 不 受 监督 方法 ， 就 是 选择 重建 误差 最 低 的 核 和 超 参数 。 

但 是 这 个 重建 不 像 线性 PCA 重 建 那样 容易 。 我 们 来 看 看 原因 ， 图 8-11 显 
示 了 瑞士 卷 的 原始 3D 数 据 集 (AL) ， 和 应 用 RBF 核 的 kPCA 得 到 的 二 
维 数据 集 (右上 ) 。 因 为 核 技 巧 ， 所 以 这 在 数学 上 等 同 于 ， 通 过 特征 

映射 函数 2 ， 将 训练 集 映射 到 无 限 维度 的 特征 空间 ( 右 下 ) ， 然 后 用 
线性 PCA 将 转换 后 的 训练 集 投影 到 2D 平 面 。 注 意 ， 如 果 我 们 对 一 个 已 
经 降 维 的 实例 进行 线性 PCA 逆 转换 ， 重 建 的 点 将 存在 于 特征 空间 ， 而 

不 是 原始 空间 中 (例如 ， 图 中 x 表示 的 那个 点 ) 。 而 这 里 特征 空间 是 无 
限 维度 的 ， 所 以 我 们 无 法 计算 出 重建 点 ， 因 此 也 无 法 计算 出 真实 的 重 

建 误差 。 幸 好 ， 我 们 可 以 在 原始 空间 中 找到 一 个 点 ， 使 其 映射 接近 于 

重建 点 。 这 被 称 为 重建 原 像 。 一 旦 有 了 这 个 原 像 ， 你 就 可 以 测量 它 到 

人 

核 和 超 参 数 。 


降 维 后 的 空间 
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图 8-11: Kernel PCA 和 重建 原 像 误 差 
要 怎么 执行 这 个 重建 呢 ? 方法 之 一 是 训练 一 个 监督 式 回 归 模 型 ， 以 投 
影 后 的 实例 作为 训练 集 ， 并 以 原始 实例 作为 目标 。 如 果 你 设置 


fit inverse_transform=True，Scikit-Learmn 会 自动 执行 该 操作 ， 如 下 代码 
所 示 : R 


rbf_pca = KernelPCA(n_components = 2, kernel="rbf", gamma=0.0433, 


fit_inverse_transform=True) 


X_reduced = rbf_pca.fit_transform(X) 


X_preimage = rbf_pca.inverse_transform(X_reduced) 


N 默认 情况 下 为 fit inverse_ transform=False， 并 有 日 KernelPCA 没 有 
inverse transform () 方法 。 只 有 在 设置 fit_ inverse_transform=True 时 才 
会 创建 该 方法 。 


然后 你 就 可 以 计算 重建 原 像 误 差 : 


>>> from sklearn.metrics import mean_squared_error 
>>> mean_squared_error(X, X_preimage) 


32. 786308795766132 


现在 ， 你 可 以 使 用 交叉 验证 的 网 格 搜索 ， 来 寻找 使 这 个 原 像 重 建 误差 
最 小 的 核 和 超 参 数 。 


[1]_“Kernel Principal Component Analysis” , B.Schélkopf ` A.Smola 和 
K.Miiller (1999) ° 


[2]_Scikit-Learn 使 用 的 算法 是 基于 一 种 核 岭 回归 算法 ， 由 Gokhan 
H.Bakir ` Jason Weston 和 Bernhard Scholkopf 在 论文 “Learning to Find Pre- 
images” (http://goo.gl/d0ydY6) 中 提出 (Tubingen, Germany: Max 
Planck Institute for Biological Cybernetics, 2004) ° 


局 部 线性 从 入 


局 部 线性 嵌入 (https://g00.gViA9bns) (LLE) 出 -是 另 一 种 非常 强大 
的 非 线性 降 维 (NLDR) 技术 。 不 像 之 前 的 算法 依赖 于 投影 ， 它 是 一 种 
流 形 学 习 扩 术 。 人 稍 单 来 说 ，LLE 首 先 测量 每 个 算法 如 何 与 其 最 近 的 邻居 
(cn.) 线性 相关 ， 然 后 为 训练 集 寻 找 一 个 能 最 大 程度 保留 这 些 局 部 关 
系 的 低 维 表示 (细节 稍 后 解释 ) 。 这 使 得 它 特别 擅长 展开 弯曲 的 流 
形 ， 特 别 是 没有 太 多 噪声 时 。 


例如 ， 下 面 的 代码 使 用 Scikit-Learn 的 LocallyLinearEmbedding 类 来 展开 
瑞士 卷 。 得 到 的 二 维 数据 集 如 图 8-12 所 示 。 正 如 你 所 见 ， 瑞 士 卷 完 全 展 
开 ， 实 例 之 间 的 距离 局 部 保存 得 很 好 。 不 过 从 整体 来 看 ， 距 离 保存 得 
不 够 好 : 展开 的 瑞士 卷 左 侧 被 挤 压 ， 而 右 侧 被 拉 长 。 尽 管 如 此 ， 对 于 
流 形 建 模 来 说 ，LLE 还 是 做 得 相当 不 错 。 


from sklearn.manifold import LocallyLinearEmbedding 


lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10) 


X_reduced = lle.fit_ transform(X) 


使 用 LLE 展开 瑞士 
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图 8-12: 使 用 LLE 展 开瑞 士 卷 


下 面 是 LLE 的 工作 原理 : 首先， 对 于 每 个 训练 实例 x WW ， FRE Aa 
出 离 它 最 近 的 k 个 邻居 (上 面 的 代码 中 k=10) ， 然 后 尝试 将 x 重建 
为 这 些 邻 居 的 线性 函数 。 更 具体 来 说 ， 就 是 要 找到 权重 wi， 使 实例 x 
Wa 

ORT ` ”之 间 的 距离 平方 最 小 ， 如 果实 例 x 不 是 实例 x 中 
的 k 个 最 近 的 邻居 之 一 ，wi, j =0°。 因 此 ，LLE 的 第 一 步 就 是 公式 8-4 所 
示 的 约束 优化 问题 ， 其 中 W 是 包含 所 有 权重 w; ;的 权重 矩阵 ， 第 二 个 
约束 则 是 简单 地 对 每 个 训练 实例 x 的 权重 进行 归 一 。 


公式 8-4: LLE 第 一 步 : 对 局 部 关系 线性 建 模 


W=: -Jaa x’ 

w= 0 PZA 不 是 实例 X 的 大 个 最 近 的 邻居 之 一 
RRI 

yu, =] (1 =1,2,"\m) 

jz 
这 一 步 完 成 后 ， 权 重 矩 阵 W (包含 权重 Wis) 对 训练 实例 之 间 的 局 部 


线性 关系 进行 编码 。 现 在 ， A e a F 
间 (d<n) ， 同 时 尽 可 能 保留 这 些 局 部 关系 。 如 采 z 0 是 实例 x Ë 


( Woo 
在 这 个 d 维 空间 的 映像 ， 那 么 我 们 希望 从 z | ) a ”之 间 的 平方 
A 这 个 想法 产生 了 如 公式 8- ee 
它 看 起 来 与 第 一 步 类 似 ， 但 不 十 保持 固定 距离 寻找 最 住 权重 ， y 
REAREN 低 维 空间 中 找到 每 个 实例 映像 的 最 佳 位 置 。 
意 Z 是 包含 所 有 z O 的 矩阵 。 


公式 8-5: LLE 第 二 步 : 保留 关系 并 降 维 
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Scikit-Learn 的 LLE 实 现 ， 计 算 复 杂 度 如 下 : 寻找 k 个 最 近邻 为 0 (mlog 
(m) nlog (k) ) ; 优化 权重 为 O (mnk?) ; 构建 低 维 表示 ， 为 O 
(dm?) 。 很 不 幸 ， 最 后 一 个 表达 式 里 的 m ?说 明 这 个 算法 很 难 扩展 应 
用 到 大 型 数据 集 。 


[1|_“Nonlinear Dimensionality Reduction by Locally Linear Embedding” , 
S.Roweis 和 L.Saul (2000) 。 


其 他 降 维 技巧 

还 有 许多 其 他 的 降 维 技术 ， 部 分 可 以 在 Scikit-Learn 中 找到 。 以 下 是 一 
些 最 流行 的 : 

、 (MDS) 算法 ， 保 持 实例 之 间 的 距离 ， 降 低 维度 ( 见 图 8- 
13) ° 

-等 度量 映射 (Isomap) 算法 ， 将 每 个 实例 与 其 最 近 的 邻居 连接 起 来 ， 
创建 连接 图 形 ， 然 后 保留 实例 之 间 的 这 个 测 地 距离 ，[ 由 降低 维度 。 
分布 随 机 近邻 租 入 (t-SNE) 算法 在 降低 维度 时 ， 试 图 让 相似 的 实例 


彼此 靠近 ， 不 相似 的 实例 彼此 远离 。 它 主要 用 于 可 视 化 ， 尤 其 是 将 高 
(例如 ， 对 MNIST 图 像 进行 二 维 可 视 


-线性 判别 (LDA) 实际 上 是 一 种 分 类 算法 ， 但 是 在 训练 过 程 中 ， 它 会 
学 习 类 别 之 间 最 有 区 别 的 轴 ， 而 这 个 轴 正 好 可 以 用 来 定义 投影 数据 的 
超 平面 。 这 样 做 的 好 人 处 在 于 投影 上 的 类 别 之 间 会 尽 可 能 的 分 开 ， 所 以 
NM a LDA 十 一 个 不 销 的 降 
一 X ° 
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图 8-13: 使 用 不 同 技术 将 瑞士 卷 数 据 集 降 为 2D 
A ae ecient ila 
练习 
1. 降 低 数据 集 维 度 的 主要 动机 是 什么 ?” 有 什么 主要 弊端 ? 

2. 什 么 是 维度 的 诅 吕 ? 


3. 一 旦 数据 集 被 降 维 ， 征 否 还 有 可 能 了 逆转? MRA, BAR? WRS 
A, PUTA? 


4.PCA 可 以 用 来 给 高 度 非 线性 数据 集 降 维 么 ? 


5. 假 设 你 在 一 个 1000 维 数据 集 上 执行 PCA， 方 差 解释 比 设 为 959%。 产 生 
的 结果 数据 集 维度 是 多 少 ? 


6. 常 规 PCA、 增 量 PCA、 随 机 PCA 及 核 PCA 各 适用 于 何 种 情况 ? 
7. 如 何在 你 的 数据 集 上 评估 降 维 算法 的 性 能 ? 


8 .链接 两 个 不 同 的 降 维 算法 有 意义 么 ? 


9. 加 载 MNIST 数 据 集 (第 3 章 中 介绍 ; ， 将 其 分 为 一 个 训练 集 和 一 个 测 
试 集 〈 将 前 60000 个 实例 用 于 训练 ， 其 余 10000 个 用 来 测试 ) 。 在 训练 
集 上 训练 一 个 随机 森林 分 类 器 ， 并 记录 训练 时 长 ， 然 后 在 测试 集 上 对 
结果 模型 进行 评估 。 接 下 来 ， 用 PCA 给 数据 集 降 维 ， 方 差 解释 比 设 为 
95%。 在 降 维 后 的 新 数据 集 上 训练 一 个 新 的 随机 森林 分 类 器 ， 看 看 需要 
多 长 时 间 ， 是 不 是 快 得 多 ? 最 后 ， 在 测试 集 上 评估 分 类 器 ， 跟 前 一 个 
分 类 器 比 起 来 如 何 ? 


10. 使 用 FSNE 将 MNIST 数 据 集 降 至 两 个 维度 ， 然 后 用 Matplotlib 绘 制 结 
果 。 你 可 以 通过 散 点 图 用 10 个 不 同 的 颜色 来 代表 每 个 图 像 的 目标 
类 别 ， 或 者 ， 你 也 可 以 在 每 个 实例 的 位 置 写 入 彩色 数字 ， 甚 至 你 还 可 
以 绘制 数字 图 像 本 身 的 缩小 版 (如 果 你 绘制 所 有 数字 ， 视 觉 效 果 会 
凌乱 ， 所 以 你 要 么 绘制 一 个 随机 样本 ， 要 么 选择 单个 实例 ， 但 是 这 个 
实例 的 周围 最 好 没有 其 他 绘制 的 实例 ) 。 现 在 你 应 该 得 到 了 一 个 很 好 
的 可 视 化 结果 及 各 自分 开 的 数字 集群 。 和 尝试 使 用 其 他 降 维 算法 ， 如 
PCA、LLE 或 MDS 等 ， 比 较 可 视 化 结果 。 


以 上 练习 的 解答 可 从 附录 A 中 获得 。 
第 二 部 分 “神经 网 络 和 深度 学 习 
第 9 划 ”运行 TensorFlow 
TensorFlow 是 一 个 用 于 数值 计算 的 强大 开源 软件 库 ， 非 常 适合 大 型 机 履 
学 习 。 它 背后 的 原理 很 简单 : 首先 在 Python 中 定义 一 个 用 来 计算 的 图 


( 见 图 9-1) ， 然 后 TensorFlow 就 会 使 用 这 个 图 ， 并 用 优化 过 的 C++ 代 
码 来 执行 计算 。 


(+) fie pryt 


Al9-1: 一 个 简单 的 计算 图 


最 重要 的 是 ，TensorFlow 可 以 将 一 个 计算 图 划分 成 多 个 子 图 ， 然 后 并 行 
地 在 多 个 CPU 或 者 GPU 上 执行 ( 见 图 9-2) 。TensorFlow 还 支持 分 布 式 
计算 ， 这 样 可 以 在 合理 的 时 间 内 ， 通 过 在 数 百 台 服 务 器 上 分 割 计算 ， 
在 庞大 的 训练 集 上 训练 巨大 的 神经 网 络 〈 详 见 第 12 章 ) 。TensorFlow 可 
以 在 由 数 十 亿 个 实例 组 成 的 训练 集 上 训练 具有 数 百 万 个 参数 的 神经 网 
络 ， 每 个 实例 具有 数 百 万 个 特征 。 这 些 其 实 也 都 不 足 为 奇 ， 毕 况 
TensorFlow 是 由 Google Brain 小 组 开发 的 ， 而 且 Google 众 多 的 大 型 服务 

(比如 Google Cloud Speech、Google Photos、Google Search 等 ) 背后 都 
有 TensorFlow 的 支持 。 


在 TensorFlow 从 2015 年 11 月 宣布 开源 的 时 候 ， 深 上 度 学 习 领 域 已 经 存在 众 
多 流行 的 开源 库 〈 表 9-1 中 列 出 了 一 些 ) ° At, TensorFlow* fs 8 E 
清晰 的 设计 、 扩 展 性 、 灵 活性 ! 直 和 完善 的 文档 (更 别提 Google 的 名 字 
T) 很 快 就 排 在 了 这 个 列表 的 顶端 。 简 而 言 之 ，TensorFlow 兼 具 灵 活性 
和 扩展 性 ， 可 直接 供 生 产 系 统 使 用 ， 其 他 已 有 的 框架 仅 仅 能 做 到 这 三 
者 中 的 两 个 。 以 下 是 TensorFlow 的 一 些 亮 点 : 


图 9-2: 多 CPU/GPU/ 服 务 器 上 的 并 行 计算 


: 它 可 以 运行 在 Windows、Linux、macOS 和 移动 设备 上 ， 包 括 iOS 和 
Android ° 


. 它 提 供 了 一 个 非常 简单 的 名 叫 TF.Learn lH- (tensorflow.contrib.learn) 的 
Python API 来 兼容 Scikit-Learn。 你 很 快 惑 可 以 看 到 ， 只 需要 儿 行 代码 ， 
你 就 可 以 用 它 来 训练 各 种 类 型 的 神经 网 络 。 这 个 库 的 前 身 是 一 个 独立 
的 项 目 ， 叫 作 Scikit-Flow (或 者 简称 skflow) ° 


. 它 还 提供 另 一 个 叫 作 TF-Slim (tensorflow.contrib.slim) 的 简单 API 来 简 
化 神经 网 络 的 构建 、 训 练 和 评估 。 


.在 TensorFlow 之 上 ， 独 立 构建 了 一 些 高 级 的 API， 比 如 Keras ( 
http://keras.io ) 和 Pretty Tensor (https://github.com/google/prettytensor/ 


它 的 Python API 提 供 了 很 多 灵活 的 方式 〈 代 价 是 很 高 的 复杂 性 ) 来 创 
建 所 有 类 型 的 计算 ， 包括 所 有 你 能 想到 的 神经 网 络 架 构 。 


它 包 含 了 很 多 非常 高 效 的 、 用 C++ 实现 的 机 器 学 习 操作 ， 等 别 是 用 来 
构建 神经 网 络 的 操作 。 另 外 ， 通 过 它 的 API， 还 可 以 用 C++ 来 实现 自己 
的 高 性 能 操作 。 


它 为 搜索 最 小 化 成 本 函数 的 参数 提供 了 很 多 高 度 优化 的 节点 。 
TensorFlow 会 目 动 计算 你 定义 的 成 本 函数 的 梯度 ， 所 以 用 起 来 会 非常 容 
易 ， 这 称 为 自动 微分 (或 者 autodiff) ° 


: 它 还 提供 一 个 非常 强大 的 叫 作 TensorBoard 的 可 视 化 工具 ， 可 以 用 来 浏 
毁 计 算 图 ， 查 看 学 习 曲 线 等 。 


Google 还 启动 了 一 个 运行 TensorFlow 计 算 图 ( 
https://cloud.google.com/ml ) 的 云 服务 。 


.最 后 ， 它 有 一 个 热情 且 乐 于 助人 的 开发 团队 和 一 个 不 断 增 长 、 持 续 改 
进 它 的 社区 。 它 是 GitHub 上 最 受 欢 迎 的 开源 项 目 之 一 ， 有 越 来 越 多 的 
项 目 都 是 构建 于 其 上 的 (参见 源 代码 https:/www.tensorflow.org/ 或 
https:Wgithub.conyjtoyawesome-tensorflow ) 。 如 果 遇 到 了 具体 的 技术 
问题 ， 可 以 在 http:/stackoverflow.com/ 提问 ， 并 将 问题 标记 

为 "tensorflow"。 可 以 在 GitHub 上 记录 bug 或 者 发 起 特性 请 求 。 对 于 普通 
的 讨论 ， 请 加 入 Google 讨 论 组 (http:/goo.gUNZkRFE9 ) ° 


这 一 章 会 讲解 TensorFlow 的 基础 知识 ， 从 安装 ， 到 创建 ， 执 行 ， 保 存 ， 
可 视 化 简单 的 计算 图 。 掌 握 这 些 基础 知识 对 于 构建 自己 的 第 一 个 神经 
网 络 (我 们 会 在 下 一 章 讨 论 ) 来 说 非常 重要 。 


表 9-1: 开源 的 深度 学 习 库 (这 不 是 一 个 详尽 的 清单 ) 


AP| 所 用 语言 REAM 开源 时 间 


Caffe Python, C++, Matlab Linux, macOS, Windows Y. Jia, UCBerkeley(BVLC) 2013 
Deepleamingd} Java, Scala, Clopwe Linux, macOS, Windows, Android A. Gibson, J.Patterson 2014 
H20 Python, R Linux, macOS, Windows H20.ai 2014 
MXNet Python, C++, others Linux, macOS, Windows, iOS, Android DMLC 2015 
TensorFlow Python, C+ Linux, macOS, Windows, 10S, Android Google 2015 
Theano Python Linux, macOS, iOS University of Montreal 2010 
Torch CH, Lua Linux, macOS, iOS, Android R Collobert, K. Kavukcuoglu, 2002 
CFarabet 


[2].TensorFlow 不 局 限 在 神经 网 络 或 者 机 器 学 习 ， 如 果 你 愿意 ， 甚 至 可 
以 用 它 来 运行 量子 物理 仿真 。 


[2] 不 要 与 TFLearn 库 混淆 ，TFLearn 库 是 一 个 独立 的 项 目 。 
A> UE 
ER 
那 就 开始 吧 。 假 设 你 已 经 按照 第 2 章 里 的 步骤 安装 了 Jupyter 和 Scikit- 
Learm， 这 样 你 瓯 可 以 简单 地 用 pip 安 装 TensorFlow 了 “。 如 采 你 已 经 用 
virtualenv 创 建 了 独立 的 环境 ， 那 么 首先 你 得 激活 它 : 

$ cd $ML_PATH # Your ML working directory (e.g., $HOME/m1) 


$ source env/bin/activate 


接 下 来 ， 安 装 TensorFlow: 


$ pip3 install --upgrade tensorflow 


W auru, 需要 安装 tensorflow-gpu， 而 不 是 tensorflow， 详 
见 第 12 章 。 


用 下 面 这 条 命令 来 检查 是 否 安装 成 功 。 如 果 安 装 成 功 ， 这 条 命令 的 输 
出 应 该 是 : 


$ python3 -c ‘import tensorflow; print(tensorflow. version )' 


1.0.0 


创建 一 个 计算 图 并 在 会 话 中 执行 
下 面 这 段 代码 会 创建 图 9-1 中 描述 的 图 


import tensorflow as tf 
x = tf.Variable(3, name="x") 


y = tf.Variable(4, name="y") 


f = x*x*y +y +2 


就 这 么 简单 ! 重要 的 是 ， 要 理解 这 段 代 码 其 实 并 没有 执行 任何 的 计 
算 ， 尽 管 看 起 来 有 点 像 (特别 是 最 后 一 行 ) ， 它 仅仅 是 创建 了 一 个 计 
算 图 和 而已。 事实 上 ， 它 连 变量 都 还 没有 初始 化 。 要 执行 这 个 图 ， E 
打开 一 个 TensorFlow 的 会 话 ， 然 后 用 它 来 初始 化 变量 并 求 值 f。 
TensorFlow 的 会 话 会 将 计算 分 发 到 诸如 CPU 和 GPU 设备 上 并 执行 ， 它 还 
持 有 所 有 变量 的 值 { 赴 。 下 面 的 代码 创建 一 个 会 话 ， 初 始 化 所 有 变量 
然后 求 值 ， 最 后 f 关 闭 整个 会 话 (释放 占用 的 资源 ) : 


>>> sess = tf.Session() 
>>> sess.run(x.initializer ) 
>>> sess.run(y.initializer) 
>>> result = sess.run(f) 


>>> print(result) 


>>> sess.close() 


每 次 都 重复 sessrun () 看 起 来 有 些 笨拙 ， 好 在 有 更 好 的 方式 : 


with tf.Session() as sess: 
X.initializer.run() 
y.initializer.run() 


result = f.eval() 


在 with 块 中 ， 会 有 一 个 默认 会 话 。 调 用 x.initializerrun 等 价 于 调用 
tf.get_default_session () .run (x.initializer) ， 同 样 ，f.eavl 等 价 于 
tf.get_default_session () .run (£) 。 这 种 写法 不 仅 可 以 增加 可 读 性 ， 还 
可 使 会 话 在 块 中 的 代码 执行 结束 后 自动 关闭 。 


除了 手工 为 每 个 变量 调用 初始 化 强 之 外 ， 还 可 以 使 用 
global_variables_initializer () 函数 来 完成 同样 的 动作 。 注 意 ， 这 个 操 
作 并 不 会 立刻 做 初始 化 ， 它 只 是 在 图 中 创建 了 一 个 市 点 ， 这 个 节点 会 
竺 会 话 执 行 时 初始 化 所 有 变量 : 


init = tf.global_variables_initializer() # prepare an init node 


with tf.Session() as sess: 
init.run() # actually initialize all the variables 


result = f.eval() 


在 Jupyter 或 者 在 Python shell 中 ， 可 以 创建 一 个 InteractiveSession。 它 和 
常规 会 话 的 不 同 之 处 在 于 InteractiveSession 在 创建 时 会 将 自己 设置 为 默 
oe 因此 你 无 须 使 用 with 块 (不 过 需要 在 结束 之 后 手工 关闭 会 

了 


>>> sess = tf.InteractiveSession() 
>>> init.run() 

>>> result = f.eval() 

>>> print(result) 

42 


>>> sess.close() 


一 个 TensorFlow 程 序 通常 可 以 分 成 两 部 分 : 第 一 部 分 用 来 构建 一 个 计算 
图 〈 称 为 构建 阶段 ) ， 第 二 部 分 来 执行 这 个 图 ( 称 为 执行 阶段 ，。 构 
建 阶段 通常 会 构建 一 个 计算 图 ， 这 个 图 用 来 展现 ML 模型 和 训练 所 需 的 
计算 。 执 行 阶段 则 重复 地 执行 每 一 步 训 练 动 作 (比如 每 个 小 批量 执行 
一 步 ) ， 并 逐步 提升 模型 的 参数 。 我 们 待 会 看 一 个 相关 的 例子 。 


[1] 在 分 布 式 TensorFlow 中 ， 变 量 的 值 存储 在 服务 妖 而 不 是 会 话 中 ， 详 


‘HEA 
你 创建 的 所 有 节点 都 会 自动 添加 到 默认 图 上 : 


>>> x1 = tf.Variable(1) 
>>> x1.graph is tf.get_default_graph() 


True 


大 部 分 情况 下 ， 这 都 不 是 问题 ， 不 过 有 时 候 你 可 能 想 要 管理 多 个 互 不 
a 图 。 可 以 创建 一 个 新 的 图 ， 然 后 用 with 块 临时 将 它 设置 为 默认 
>>> graph = tf.Graph() 


>>> with graph.as_default(): 


x2 = tf.Variable(2) 


>>> x2.graph is graph 
True 
>>> x2.graph is tf.get_default_graph() 


False 


外 在 hnpyier (或 者 Python shell 中 ) ， 做 实验 时 你 经 常会 多 次 执行 同 
一 条 命令 。 这 样 可 能 会 在 同一 个 图 上 添加 了 很 多 重复 方 点 。 一 种 做 法 
是 重启 Jupyter 内 核 (或 者 Python shell) ， 更 方便 的 做 法 是 通过 
tf.reset_default_graph () 来 重 置 默认 图 。 


方太 值 的 生命 周期 
当 求 值 一 个 节点 时 ，TensorFlow 会 自动 检测 该 节点 依赖 的 节点 ， 并 先 对 
这 些 节点 求 值 ， 比 如 在 下 面 这 个 例子 中 : 


w = tf.constant(3) 


with tf.Session() as sess: 
print(y.eval()) # 10 


print(z.eval()) # 15 


首先， 这 上段 代码 定义 了 一 个 非常 简单 的 计算 图 。 然 后 ， 它 启动 一 个 会 
话 ， 并 开始 执行 计算 图 ， 求 值 y: TensorFlow 自 动 检测 到 y 依 赖 于 w， 
为 x 依赖 于 w， 所 以 它 会 先 求 值 w， 然 后 是 x， 然 后 是 y， 并 返回 y 的 值 。 
最 后 ， 这 上 段 代 码 执 行 到 对 z 求 值 的 时 候 。TensorFlow 发 现 需 要 先 求 值 w 
和 x。 需 要 注意 的 是 ，TensorFlow 不 会 复 用 上 一 步 求 值 的 w 和 x 的 结果 。 
倍 而 言 之 ，w 和 x 的 值 会 计算 两 次 。 


在 图 的 每 次 执行 间 ， 所 有 节点 值 都 会 被 丢弃， 但 是 变量 的 值 不 会 ， 
为 变量 的 值 是 由 会 话 维护 的 队列 和 阅读 器 也 会 维护 一 些 状态 ， 详 见 


~ o 变量 的 生命 周期 从 初始 化 器 的 执行 开始 ， 到 关闭 会 话 才 结 


对 于 上 述 代 码 ， 如 采 你 不 硕 望 对 y 和 z 重 复 求 值 ， 那 么 必须 告诉 
TensorFlow 在 一 次 图 的 执行 中 就 完成 y 和 z 的 求 值 ， 代 码 如 下 : 
with tf.Session() as sess: 
y_val, z_val = sess.run([y, Z]) 
print(y_val) # 10 


print(z_val) # 15 


Pek ott 68 TensorFlowsl, 即使 它们 共享 同一 个 计算 图 ， 多 个 会 
话 之 间 仍 然 互相 隔离 ， 不 共享 任何 状态 (每 个 会 话 对 每 个 变量 都 有 自 
己 的 拷贝 ) 。 对 于 分 布 式 TensorFlow ( 见 第 12 章 ) ， 变 量 值 保存 在 每 个 
服务 器 上 ， 而 不 是 会 话 中 ， 所 以 多 个 会 话 可 以 共享 同一 变量 。 


TensorFlow 中 的 线性 回归 


TensorFlow 中 的 操作 (简称 op) 可 以 接受 任意 数量 的 输入 ， 也 可 以 产生 
任意 数量 的 输出 。 举 个 例子 ， 加 法 和 乘法 操作 都 接受 两 个 输入 ， 并 产 
生 一 个 输出 。 常 量 和 变量 〈 称 为 源 操作 ) 则 没有 输入。 和 输入 和 输出 都 
是 多 维 数 组 ， 叫 作 张 量 (这 也 是 TensorFlow 名 字 的 来 源 ) 。 就 像 NumPy 
中 的 数组 一 样 ， 张 量 也 有 类 型 和 形状 。 事 实 上 ， 在 Python API 中 ， 张 量 
可 以 用 NumPy 中 的 ndarrays 来 表示 。 通 和 党 它们 会 用 来 保存 浮 点 型 数据 ， 
不 过 也 可 以 用 它 来 存储 字符 串 〈 任 意 的 字 节 数组 ) ° 


目前 看 到 的 例子 中 ， 张 量 都 只 包含 了 单个 标量 值 ， 但 可 以 对 任意 形状 
的 数组 进行 计算 。 比 如 ， 下 面 的 代码 展示 了 如 何 操作 二 维 的 数组 来 计 
算 加 州 的 住房 数据 的 线性 回归 CERI PATA) 。 首 先 ， 获 取 数 
据 。 然 后 ， 对 所 有 训练 实例 都 添加 一 个 额外 的 偏 移 (xo=1) (由 于 使 
用 了 Numpy， 所 以 这 是 立刻 执行 的 ) 。 接 下 来 ， 创 建 两 个 TensorFlow 的 
常量 节点 ，x 和 y 以 及 目标 出 ， 代 码 中 还 使 用 了 TensorFlow 提 供 的 矩阵 


PRVEAR RE theta ° 3X HEFEME RAC EN Atranspose () 、matmul () 和 
matrix_inverse () 都 是 自 解释 的 ， 与 以 往 一 样 ， 它 们 不 会 立即 执行 ， 
现在 只 是 定义 了 图 中 的 下 点， 具体 计算 要 等 到 图 运行 时 才 会 发 生 。 你 
可 能 已 经 看 出 来 了 ， theta 的 定义 用 的 是 正规 方程 (Normal Equation) ( 
人 -XIT.YyY， 见 第 4 章 ) 。 最 后 ， 人 代码 创建 会 话 并 对 theta 求 


import numpy as np 


from sklearn.datasets import fetch_california_housing 


housing = fetch_california_housing() 


m, n = housing.data.shape 


housing_data_plus_bias = np.c_[np.ones((m, 1)), housing.data] 


X = tf.constant(housing_data_plus_bias, dtype=tf.float32, name="X") 


y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y") 


XT = tf.transpose(X) 


theta = tf.matmul(tf.matmul(tf.matrix_inverse(tf.matmul(XT, X)), XT), y) 


with tf.Session() as sess: 


theta_value = theta.eval() 


与 直接 用 NumPy 来 计算 正规 方程 相 比 ， 上 述 代 码 的 最 大 好 处 是 如 果 你 
有 GPU，TensorFlow 会 把 计算 目 动 分 发 到 GPU 上 去 (当然 ， 要 安装 市 有 
GPU 支持 的 TensorFlow 版 本 ， 详 见 第 12 章 ) 


[1 注意 housing.target 征 个 一 维 数 组 ， 我 们 需要 将 它 变 成 一 个 列 癌 量 来 
计算 theta。Numpy 的 reshape () 函数 接受 -1 (表示 未 指定 ) 作为 参数 : 
该 维度 将 根据 数组 的 长 度 和 剩余 维度 进行 计算 。 


实现 梯度 下 降 
我 们 来 试 一 下 批量 梯度 下 降 法 (在 第 4 章 中 有 介绍 ) 。 首 先 手工 计算 梯 


度 ， 然 后 使 用 TensorFlow 的 自动 微分 特性 来 自动 计算 梯度 ， 最 后 学 习 
TensorFlow 内 置 的 众多 优化 絮 。 


从、 当 使 用 梯度 下 降 法 时 ， 要 记得 先 对 输入 的 特征 向 量 做 归 一 化 ， 否 
则 训练 过 程 会 非常 慢 。 可 以 用 TensorFlow、NumpPy 、Scikit-Learn 的 ] 
ER 或 者 其 他 你 喜欢 的 方法 。 下 面 这 段 代 码 假设 已 经 做 过 
NG) lee fe 


手工 计算 梯度 

下 面 的 代码 基本 上 都 是 自 解释 的 了 ， 除 了 这 些 新 的 点 之 外 : 

.函数 random_uniform () 会 在 图 中 创建 一 个 节点 ， 这 个 节点 会 生成 一 
个 张 量 。 函 数 会 根据 传 入 的 形状 和 值 域 来 生成 随机 值 来 填充 这 个 张 
量 ， 这 和 NumPy 的 rand () 函数 很 相似 。 


. 画 数 assign () 创建 一 个 为 变量 赋值 的 节点 。 这 里 ， 它 实现 了 批量 梯度 
下 降 step ge P)—9_ n VaMSE(0) 。 


主 循环 部 分 不 断 执行 训 练 步骤 (Hn epochs) ， 每 经 过 100 次 迭代 ， 
它 会 打印 当前 的 均 方 误差 (Mean Squared Error) 。 这 个 值 应 该 是 不 断 
降低 的 。 


n_epochs = 1000 


learning_rate = 0.01 


X = tf.constant(scaled_housing_data_plus_bias, dtype=tf.float32, name="X") 


y = tf.constant(housing.target.reshape(-1, 1), dtype=tf.float32, name="y") 


theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta") 


y_pred = tf.matmul(X, theta, name="predictions") 


error = y_pred - y 


mse = tf.reduce_mean(tf.square(error), name="mse") 


gradients = 2/m * tf.matmul(tf.transpose(X), error) 


training_op = tf.assign(theta, theta - learning_rate * gradients) 


init = tf.global_variables_initializer() 


with tf.Session() as sess: 


sess.run(init) 


for epoch in range(n_epochs): 


if epoch % 100 == 


print("Epoch", epoch, "MSE =", mse.eval()) 


sess.run(training_op) 


best_theta = theta.eval() 


使 用 目 动 微分 


上 面 的 代码 可 以 很 好 地 工作 ， 但 是 需要 用 数学 的 方式 来 从 成 本 函数 
(MSE) 中 算出 梯度 。 对 于 线性 回归 来 说， 这 是 很 简单 的 ， 但 是 如 果 

你 要 处 理 深度 神经 网 络 就 很 头疼 了 : 过 程 会 琐碎 而 且 容易 出 错 。 可 以 

用 符号 微分 法 来 自动 求 出 偏 导 方程 ， 不 过 代码 就 不 一 定 那 么 高 效 了 。 


为 了 理解 其 中 的 原因 ， 想 象 画 数 f (x) =exp (exp (exp (x) ) ) 。 如 
果 你 懂 微 积分 ， 你 会 计算 出 它 的 导数 是 f' (x) =exp (x) xexp (exp 
(x) ) xexp (exp (exp (x) ) ) 。 如 果 在 代码 中 也 这 样 做 ， 那 肯定 
是 低 效 的 。 更 高 效 的 方式 是 写 一 个 函数 先 计算 exp (x) ， 然 后 再 计算 
exp (exp (x) ) ， 最 后 计算 exp (exp (exp (x) ) ) ， 之 后 返回 三 个 
值 。 这 样 可 以 直接 计算 出 f (x) ， 如 果 要 计算 导数 ， 只 需要 将 这 三 个 值 
相 乘 。 如 果 用 原生 的 方法 ， 需 要 调用 exp 函 数 9 次 来 计算 f (x) 和 

f(x) 。 后 面 这 种 方式 只 需要 3 次 。 


如 琳 函 数 由 更 复 淋 的 代码 定义 ， 和 情况 会 变更 糟 。 你 能 求 出 下 面 这 个 函 
数 的 偏 导 方程 吗 ? 提示 : 千 万 别 试 ! 


def my_func(a, b): 


z= 0 


for i in range(100): 


z =a * np.cos(z + i) + z * np.sin(b - i) 


return z 


邓 运 的 是 ，TensorFlow 的 autodifft 功 能 可 以 帮 你 解决 : 它 可 以 目 动 而 且 
高 效 地 算出 梯度 。 只 需要 把 上 述 例 和子 中 的 对 gradients 的 赋值 的 语句 换 成 
下 面 的 代码 即 可 : 


gradients = tf.gradients(mse, [theta])[0] 


gradients () 函数 接受 一 个 操作 符 (这 里 是 mse) 和 一 个 参数 列表 (这 
里 是 theta) 作为 参数 ， 然 后 它 会 创建 一 个 操作 符 的 列表 来 计算 每 个 变 
量 的 梯度 。 所 以 梯度 市 点 将 计算 MSE 相 对 于 theta 的 梯度 疝 量 。 


四 种 自动 计算 梯度 的 主要 方法 见 表 9-2。TensorFlow 使 用 了 反问 的 
autodiff 算 法 ， 它 非常 适用 于 有 多 个 输入 和 少量 输出 的 场景 (高 效 而 精 
确 ) ， 在 神经 网 络 中 这 种 场景 非常 兽 见 。 它 只 需要 n outputs +A , 
束 可 以 求 出 所 有 输出 相对 于 输入 的 偏 导 。 


表 9-2: 自动 计算 梯度 的 主要 方法 


计算 所 有 梯度 
HARENAK 
数值 微分 低 是 LL 
符号 微分 高 f 会 构建 一 个 完全 不 同 的 图 
前 向 自动 微分 高 Æ 基于 二 元 本 
反问 自动 微分 高 是 由 TensorFlow 实现 


如 果 你 对 其 背后 原理 感 兴 趣 ， 请 参见 附录 D 。 
使 用 优化 大 
TensorFlow 会 帮 你 计算 梯度 ， 不 过 它 还 提供 更 容易 的 方法 : 它 内 置 了 很 


多 的 优化 器 ， 其 中 就 包括 梯度 下 降 优化 器 。 你 只 需要 把 上 面 对 
gradients=.…. 和 training_op=.… 赋 值 的 语句 修改 成 下 面 的 代码 即 可 : 


optimizer = tf.train.GradientDescentOptimizer (learning_rate=learning_rate) 


training_op = optimizer .minimize(mse) 


如 果 你 想 使 用 其 他 类 型 的 优化 器 ， 只 需要 修改 一 行 代码 。 例 如 ， 如 果 
要 使 用 动量 优化 器 (momentum optimizer) 《〈 比 梯度 下 降 优化 器 的 收 侈 
速度 快 很 多 ， 见 第 11 章 ) ， 可 以 这 样 定 义 优 化 器 : 


optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 


momentum=0.9) 


给 训练 算法 提供 数据 


下 面 把 上 面 的 代码 改 成 小 批 次 梯度 下 降 (Mini-batch Gradient 

Descent) 。 为 此 ， 需 要 一 种 在 每 次 迭代 时 用 下 一 个 小 批量 蔡 换 X 和 y 的 
方法 。 最 简单 的 方法 是 用 占 位 符 节 点 。 占 位 符 记 点 非常 特别 ， 它 们 不 
进行 任何 实际 的 计算 ， 而 只 是 在 运行 时 输出 你 需要 它 输 出 的 值 。 一 般 
它 用 来 在 训练 过 程 中 将 值 传 给 TensorFlow。 如果 运行 时 不 为 占 位 符 指定 


一 个 值 ， 吕 会 得 到 一 个 异 前 。 


要 创建 一 个 占 位 符 节 点 ， 需 要 调用 placeholder () 函数 并 指定 输出 张 量 
的 数据 类 型 。 另 外 ， 如 果 你 想 强制 张 量 的 形状 ， 也 可 以 在 此 指定 。 如 
果 给 维度 设置 None 值 ， 则 表示 “任意 尺寸 "*。 比 如 ， 下 面 的 代码 创建 了 
一 个 占 位 符 节 点 A， 同 时 创建 节点 B， 节 点 B=A+5。 当 对 B 求 值 时 ， 给 
eval () 方法 传 一 个 feed_dict， 并 指定 A 的 值 。 注 意 ，A 必 须 是 2 阶 的 
(比如 ， 一 个 二 维 数 组 ) 而 且 必 须 有 3 列 (否则 会 抛 异常 ， 不 过 可 以 
有 任意 多 行 。 


>>> A = tf.placeholder(tf.float32, shape=(None, 3)) 


>>>B=A+5 


>>> with tf.Session() as sess: 
B_val_1 = B.eval(feed_dict={A: [[1, 2, 3]]}) 


B_val_2 = B.eval(feed_dict={A: [[4, 5, 6], [7, 8, 9]]}) 


>>> print(B_val_1) 


Wa 雪 际 上 ， 可 以 输入 任何 操作 的 输出 ， 而 不 仅仅 是 占 位 符 。 这 时 
TensorFlow 不 会 求 值 这 些 操 作 ， 它 会 用 你 传 给 它 的 值 。 


要 实现 小 批 次 梯度 下 降 ， 只 需要 对 既 有 代码 做 一 点 微小 的 调整 。 首 先 
TERI BT BEX Aly EY LAT TH ° 


X = tf.placeholder(tf.float32, shape=(None, n + 1), name="X") 


y = tf.placeholder(tf.float32, shape=(None, 1), name="y") 
然后 定义 批 次 的 大 小 并 计算 批 次 的 总 数 : 


batch_size = 100 


n_batches = int(np.ceil(m / batch_size)) 


最 后 ， 在 执行 阶段 ， 逐 个 获取 小 批 次 ， 然 后 在 评估 依赖 于 它们 的 节点 
时 ， 通 过 feed_dict 参 数 提 供 X 和 y 的 值 。 
def fetch_batch(epoch, batch_index, batch_size): 
[...] # load the data from disk 


return X_batch, y_batch 


with tf.Session() as sess: 


sess.run(init) 


for epoch in range(n_epochs): 
for batch_index in range(n_batches): 
X_batch, y_batch = fetch_batch(epoch, batch_index, batch_size) 
sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 


best_theta = theta.eval() 


和 不 过 在 求 值 theta 时 无 须 给 X 和 y 传 值 ， 因 为 theta 不 依赖 于 它们 中 的 任 


意 一 个 。 


保存 和 恢复 模型 


一 旦 训练 好 了 模型 ， 束 需要 将 模型 的 参数 保存 到 硬盘 上 ， 这 样 可 以 在 
任何 时 刻 使 用 这 些 参 数 ， 可 以 在 其 他 程序 中 使 用 ， 与 其 他 模型 做 比 
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(checkpoint) 保存 起 来 ， 这 样 当 电脑 裔 溃 时 ， 可 以 从 最 近 一 个 检查 点 
恢复 ， 而 不 是 从 头 再 来 。 


在 TensorFlow 中 ， 存 取 模 型 都 非常 容易 。 在 构造 期 末尾 (在 所 有 变量 节 
点 都 创建 之 后 ) 创建 一 个 Saver 节 点 ， 然 后 在 执行 期 ， 调 用 save () 
法 ， 并 传 入 一 个 会 话 和 检查 点 文件 的 路 径 即 可 保存 模型 : 


theta = tf.Variable(tf.random_uniform([n + 1, 1], -1.0, 1.0), name="theta") 


init = tf.global_variables_initializer() 


saver = tf.train.Saver() 


with tf.Session() as sess: 


sess.run(init) 


for epoch in range(n_epochs): 


if epoch % 100 == 0: # checkpoint every 100 epochs 


save_path = saver.save(sess, "/tmp/my_model.ckpt") 


sess.run(training_op) 


best_theta = theta.eval() 


save_path = saver.save(sess, "/tmp/my_model_final.ckpt") 


恢复 模型 同样 简单 : 与 之 前 一 样 ， 在 构造 期 末尾 创建 一 个 Saver 节 点 ， 
不 过 在 执行 期 开始 的 时 候 ， 不 是 用 init 节 点 来 初始 化 变量 ， 而 是 调用 
Saver 对 象 上 的 restore () 方法 : 


with tf.Session() as sess: 


saver.restore(sess, "/tmp/my_model_final.ckpt") 


[...] 


默认 地 ，Saver 会 按照 变量 名 来 保存 和 恢复 变量 ， 不 过 如 果 你 想 做 更 多 
的 控制 ， 也 可 以 在 保存 和 恢复 时 目 己 指定 名 称 。 比 如 ， 在 下 面 的 代码 
中 ，Saver 只 会 保存 theta， 并 将 其 命名 为 weights: 


saver = tf.train.Saver({"weights": theta}) 


FA TensorBoard> FY 4 Al AL VI ZR HZ 


现在 有 一 个 可 以 用 小 批量 梯度 下 降 法 训练 线性 回归 模型 的 计算 图 了 ， 
而 且 可 以 周期 性 地 将 检查 点 保存 起 来 。 听 起 来 很 不 错 ， 不 是 吗 ? 不 
过 ， 我 们 现在 还 是 依赖 print O 函数 来 可 视 化 训练 的 进度 。 有 一 个 更 
好 的 方法 : 使 用 TensorBoard。 给 它 一 些 训练 状态 ， 它 可 以 在 浏览 絮 中 
将 这 些 状态 以 交互 的 方式 展现 出 来 (比如 学 习 曲 线 ) 。 还 可 以 将 图 的 
定义 提供 给 它 ， 然 后 通过 浏 宽 虱 来 进行 查看 。 这 种 方式 对 识别 图 中 的 
错误 ， 发 现 图 的 瓶颈 等 非常 有 用 。 


首先 要 对 程序 稍 做 修改 ， 这 样 它 可 以 将 图 的 定义 和 训练 状态 ， 比 如 ， 

训练 误差 (MSE) ， 写 入 到 一 个 TensorBoard 会 读 取 的 日 志文 件 夹 中 。 
每 次 运行 程序 时 ， 都 需要 指定 一 个 不 同 的 目 永 ， 否 则 TensorBoard 会 将 
这 些 状 态 信息 合并 起 来 ， 这 会 导致 可 视 化 结果 变 成 一 团 糟 。 最 人 简单 的 


方式 是 用 时 间 蕉 来 命名 日 志文 件 夹 *。 fE TL EE SE EY ST Be 
部 分 : 
from datetime import datetime 


now = datetime.utcnow().strftime("%Y%m%d%H%M%S" ) 
root_logdir = "tf_logs" 


logdir = "{}/run-{}/".format(root_logdir, now) 
接着 ， 把 下 面 的 代码 放 在 构造 期 的 最 后 一 行 : 


mse_summary = tf.summary.scalar('MSE', mse) 


file writer = tf.summary.Filewriter(logdir, tf.get_default_graph()) 


第 一 行 在 图 中 创建 了 一 个 节点 ， 这 个 节点 用 来 求 MSE 的 值 ， 并 将 其 写 
入 与 TensorBoard 称 为 汇总 (summary) 的 二 进 制 日 志 字 符 串 中 。 第 二 行 
创建 了 一 个 用 来 将 汇总 写 入 到 日 志 目 录 的 FileWriter。 第 一 个 参数 指定 
了 日 志 目 录 的 路 径 (在 这 里 如 tf_logs/run-20160906091959， 相 对 于 当前 
目录 ) 。 第 二 个 参数 (可 选 ) 指定 了 你 想 要 可 视 化 的 计算 图 。 创 建 之 
后 ， 如 果 目 录 不 存在 ，FileWriter 会 创建 日 志 目 录 (如 果 父 目录 不 存 

人 


接 下 来 ， 在 执行 期 中 ， 你 需要 在 训练 时 定期 地 求 值 mse_summary 世 点 
(比如 ， 每 10 个 小 批量 ) 。 这 会 将 汇总 信息 和 输出， 然后 通过 file_writer 
来 将 其 写 入 事件 文件 中 ， 代 人 码 如 下 : 


for batch_index in range(n_batches): 


X_batch, y_batch = fetch_batch(epoch, batch_index, batch_size) 


if batch_index % 10 == 0: 


summary_str = mse_summary.eval(feed_dict={X: X_batch, y: y_batch}) 


step = epoch * n_batches + batch_index 


file_writer.add_summary(summary_str, step) 


sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 
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最 后 ， 需 要 在 程序 结束 时 关闭 FileWriter: 


file_writer.close() 


现在 执行 这 个 程序 ， 它 会 创建 一 个 日 志 目 录 ， 并 在 该 目录 中 创建 一 个 
事件 文件 ， 事 件 文件 中 包 仿 了 图 的 定义 和 MSE 的 值 * 打 开 仿 令 行 ; 切 
换 到 工作 目录 ， 然 后 输入 ls-1 tf_logs/run* 来 列 出 该 目录 中 的 所 有 文件 : 


$ cd $ML_PATH # Your ML working directory (e.g., $HOME/m1) 


$ ls -1 tf_logs/run* 


total 40 


-rw-r--r-- 1 ageron staff 18620 Sep 6 11:10 events.out.tfevents.1472553182.mymac 


FA 一 一 


第 二 次 运行 该 程序 时 ， 你 会 在 tf_logs/ 中 看 到 第 二 个 目录 : 


$ ls -1 tf_logs/ 
total 0 
drwxr-xr-x 3 ageron staff 102 Sep 6 10:07 run-20160906091959 


drwxr-xr-x 3 ageron staff 102 Sep 6 10:22 run-20160906092202 


很 好 ! 现在 是 时 候 局 动 TensorBoard 服 务 器 了 “。 如 果 创 建 了 virtualenv， 
需要 先 激活 它 ， 然 后 用 tensorboard 命 令 CORT BRA a Etam H RAY 

HE AS ° IX SAB TensorBoardH'JWebdkA as. Hm O 6006 EUT 
(6006 正 是 “goog” 倒 过 来 ) : 


$ source env/bin/activate 
$ tensorboard --logdir tf_logs/ 
Starting TensorBoard on port 6006 


(You can navigate to http://0.0.0.0:6006) 


在 浏览 器 中 输入 http:/0.0.0.0:6006/ (或 者 http://localhost:6006/) ， 就 
可 以 看 到 TensorBoard 的 界面 了 ! 在 事件 页 签 ， 你 应 该 可 以 看 到 右 侧 的 
MSE， 如 图 9-3 所 示 。 点 击 它 可 以 看 到 两 次 训练 过 程 中 MSE 的 图 表 。 可 
以 选择 展示 哪 一 次 的 图 表 ， 可 以 放大 或 者 缩小 ， 鼠 标 移 上 去 查看 详 


= AE 
la, SES o 
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Write a regex to create ataggroup Xo MSE 1 


C Split on underscores MSE 


[C] Data download links 


Horizontal Axis 700 4 
50 | 
Runs 


Write a regex to filter runs 


rn 2060708001989 
run 20160706092202 | 


0.000 2000 4000 6000 8000 1000k 1.200k 1400k 1600k 1800k 2000k 


Value Step Time Relative 
TOGGLE ALL RUNS fun-20160706091959 0.8327 30.00 Wed Jul 6, 11:20:00 0s 


0 fun-20160706092202 2617 30.00 Wed Jul 6, 11:2203 0s 


图 9-3: 用 TensorBoard 可 视 化 训练 状态 
点 击 Graphs 页 签 ， 你 应 该 可 以 看 到 图 9-4 中 展示 的 图 表 。 


为 了 减轻 页 面 上 的 杂乱 感 ， 有 多 条 边 的 节点 单独 放 在 右 侧 的 辅助 区 域 
〈 可 以 通过 右键 单 击 来 切换 节点 在 主 图 和 辅助 区 域 的 展示 ) 。 图 的 一 

些 部 分 默认 地 会 折 县 起 来 比如， 把 鼠标 指针 挪 至 梯度 节点 ， 然 后 点 

a 图 标 焉 可 以 展开 它 的 子 图 。 接 着 在 子 图 中 ， 再 试 试 展开 mse_grad 子 


A 如 果 你 想 在 Jupyter 中 直接 看 一 眼 图 的 结构 ， 可 以 用 本 章 的 笔记 本 中 
的 函数 show_graph () 。 这 个 函数 最 早 由 A.Mordvintsev 在 他 的 
deepdream 笔 记 本 (http://goo.sVEtCWUc) 中 开发 。 还 可 以 安装 


E.Jang's 的 包含 了 Jypyter 扩 展 的 TensorFlow 调 试 工 具 ( 
https://github.com/ericjang/tdb) 来 对 图 做 可 视 化 (当然 ， 还 有 很 多 其 他 
功能 ) 。 
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图 9-4: 用 TensorBoard 可 视 化 计算 图 
命名 作用 域 


在 处 理 诸如 神经 网 络 等 复杂 模型 时 ， 图 很 容易 就 变 得 杂乱 而 庞大 。 为 
了 避免 这 种 情况 ， 可 以 创建 命名 作用 域 来 将 相关 的 廊 点 分 组 。 比 如 ， 
可 以 修改 上 面 的 例子 ， 将 error (误差 | 和 mse ops (MSE 操 作 ) 定义 到 
一 个 叫 作 “loss” 的 命名 作用 域 中 : 


with tf.name_scope("loss") as scope: 
error = y_pred - y 


mse = tf.reduce_mean(tf.square(error), name="mse") 


在 这 个 作用 域 中 定义 的 每 个 操作 现在 部 有 一 个 “loss/”* 前 级 : 


>>> print(error.op.name) 
loss/sub 
>>> print(mse.op.name) 


loss/mse 


Æ TensorBoard' F, mse#lerror h EE ab it NE “loss” fs 23 TA] HA, F 
且 该 命名 空间 默认 是 收 起 来 的 ( 见 图 9-5) ° 
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图 9-5: 一 个 收 起 来 的 命名 作用 域 
模块 化 
假设 你 想 要 创建 一 个 计算 两 个 修正 线性 单元 (ReLU) 之 和 的 图 。 修 正 
线性 单元 会 计算 输入 的 线性 函数 ， 如 果 值 是 正 数 ， 则 输出 其 值 ， 如 果 
是 负数 ， 则 返回 90， 如 公式 9-1 所 示 。 
公式 9-1: 修正 线性 单元 


hy o(X)=max(X + w+b,0) 


下 面 的 代码 可 以 完成 这 个 工作 ， 不 过 有 点 元 余 : 


n_features = 3 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 


wi = tf.Variable(tf.random_normal((n_features, 1)), name="weightsi") 
w2 = tf.Variable(tf.random_normal((n_features, 1)), name="weights2") 
b1 = tf.Variable(0.0, name="biasi") 


b2 = tf.Variable(0.0, name="bias2") 


z1 = tf.add(tf.matmul(X, wi), b1, name="z1i") 


z2 = tf.add(tf.matmul(X, w2), b2, name="z2") 


relu1 = tf.maximum(z1, ©., name="relu1i") 


relu2 = tf.maximum(z1i, 0., name="relu2") 


output = tf.add(relui1, relu2, name="output") 


这 种 重复 代码 很 难 维护 ， 也 容易 出 错 〈 事 实 上 ， 这 段 代码 包含 了 一 个 
cut-and-paste 的 错误 ， 你 能 看 出 来 吗 ? ) 。 当 要 添加 多 个 ReLU 时 ， 和 情况 
会 变 得 更 糟 。 幸 运 的 是 ，TensorFlow 会 让 你 保持 DRY (Don’t Repeat 
Yourself， 不 要 重复 自己 ) 原则 : 用 一 个 函数 来 构建 ReLU“。 下 面 的 代码 
创建 了 5 个 ReLU， 并 且 输 出 了 它们 的 和 GER, add_n () 创建 了 一 个 
会 计算 一 个 张 量 列表 的 和 的 操作 ) : 


def relu(X): 


w_Shape = (int(X.get_shape()[1]), 1) 


w = tf.Variable(tf.random_normal(w_shape), name="weights") 


b = tf.Variable(0.0, name="bias") 


z = tf.add(tf.matmul(X, w), b, name="z") 


return tf.maximum(z, ©., name="relu") 


n_features = 3 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 


relus = [relu(X) for i in range(5)] 


output = tf.add_n(relus, name="output") 


当 创 建 一 个 节点 时 ，TensorFlow 会 检查 这 个 名 字 是 否 已 经 存在 ， 如 果 已 
经 存在 了 ， 它 会 为 其 添加 一 个 下 划 线 和 一 个 索引 以 保证 唯一 性 。 第 一 
个 ReLU 包 含 了 名 字 为 "weights""bias""z "和 "relu" (以 及 一 些 有 自己 默认 
名 字 的 节点 ， 比 如 "MatMul") 的 节点 ， 第 二 个 ReLU 包 含 的 节点 即 

为 : "weights_1""bias_1" 等 ; 第 三 acs ony Ween > bese 
节点 ，TensorBoard 会 发 现 这 种 规律 ， 并 将 其 归 类 到 一 组 以 避免 界面 的 
混乱 ( 见 图 9-6) 。 


sl 
weights... 
weights... 
weights... 


O 


图 9-6: 收 起 的 节点 序列 


Lay ea aes 可 以 让 图 更 加 清晰 。 只 需要 将 relu () 函数 的 内 容 放 
进 一 个 命名 作用 域 即 可 。 图 9-7 展 示 了 结果 图 。 注 意 ，TensorFlow 还 通 
过 加 _1、_2 等 后 级 的 方式 为 命名 作用 域 提 供 了 唯一 的 名 字 。 


def relu(X): 


with tf.name_scope("relu"): 


[...] 


output 


4 
ty w w} 


图 9-7: 市 有 命名 作用 域 的 更 加 清晰 的 图 


共享 变量 
如 果 你 想 在 图 的 不 同 组 件 中 共享 变量 ， T e 然后 
将 其 作为 参数 传递 给 需要 它 的 函数 。 比 如 你 想 通 过 一 个 共享 的 国 值 变 
量 来 控制 所 有 ReLU 的 国 值 (当前 是 硬 编码 为 0 的 ) T FAIS 
变量 ， 然 后 传 给 relu () KË: 


def relu(X, threshold): 


with tf.name_scope("relu"): 


return tf.maximum(z, threshold, name="max") 


threshold = tf.Variable(0.0, name="threshold") 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 


relus = [relu(X, threshold) for i in range(5)] 


output = tf.add_n(relus, name="output") 


这 是 可 行 的 : 你 已 经 可 以 通过 threshold 变 量 来 控制 所 有 ReLU 的 靖 值 

了 。 不 过 ， 如 果 有 太 多 类 似 的 共享 参数 ， 那 么 一 直 将 其 作为 参数 来 到 

处 传递 就 会 变 得 很 痛苦 。 有 些 人 创建 了 一 个 包含 模型 所 需要 的 所 有 变 

量 的 字典 ， 然 后 传递 给 每 一 个 函数 。 也 有 人 为 每 个 模块 都 创建 一 个 类 
〈 例 如 ， 一 个 ReLU 类 用 类 变量 来 持 有 共享 参数 ) 。 别 一 个 选项 是 在 第 

一 次 调用 时 将 共享 变量 设置 为 relu () 函数 的 一 个 属性 : 


def relu(X): 
with tf.name_scope("relu"): 
if not hasattr(relu, "threshold"): 
relu.threshold = tf.Variable(0.0, name="threshold") 
[...] 


return tf.maximum(z, relu.threshold, name="max") 


TensorFlow 提 供 另 外 一 个 选择 ， 可 以 让 代码 更 加 清晰 ， 也 更 加 模块 化 。 
上- 这 种 方式 一 开始 理解 起 来 会 有 点 困难 ， 不 过 它 会 在 TensorFlow 中 频繁 
使 用 ， 还 是 值得 详细 讨论 的 。 如 果 共 享 变量 不 存在 ， 该 方法 先 通 过 
get_variable () 函数 创建 共享 变量 ; 如 果 已 经 存在 了 ， 就 复 用 该 共享 
变量 。 期 望 的 行为 通过 当前 variable_scope () 的 一 个 属性 来 控制 〈 创 
建 或 者 复 用 ) 。 比 如 ， 下 面 的 代码 会 创建 一 个 名 为 "reluthreshold" 的 变 
量 (因为 shape= () ， 所 以 结果 是 一 个 标量 ， 并 且 以 0.0 为 初始 值 ) : 


with tf.variable_scope("relu"): 


threshold = tf.get_variable("threshold", shape=(), 


initializer=tf.constant_initializer(0.0)) 


注意 ， 如 果 这 个 变量 之 前 已 经 被 get_variable () 调用 创建 过 ， 这 里 会 
抛 出 一 个 异常 。 这 种 机 制 避 免 由 于 误 操 作 而 复 用 变量 。 如 果 要 复 用 一 
个 变量 ， 需 要 通过 设置 变量 作用 域 的 reuse 属 性 为 True 来 显 式 地 实现 


(在 这 里 ， 不 必 指 定形 状 或 初始 化 器 ) 。 


with tf.variable_scope("relu", reuse=True): 


threshold = tf.get_variable("threshold") 


这 段 代 码 会 获取 既 有 的 "reluthreshold" 变 量 ， 如 果 该 变量 不 存在 ， 或 者 


在 调用 get_variable () 时 没有 创建 成 功 ， 那 么 会 抛 出 一 个 异常 。 另 一 
种 方式 是 ， 在 调用 作用 域 的 reuse_variables () 方法 块 中 设置 reuse 属 性 


为 True: 


with tf.variable_scope("relu") as scope: 
scope.reuse_variables() 


threshold = tf.get_variable("threshold" ) 


处 一 旦 reuse 属 性 设置 为 Trne 之 后 ， 在 该 块 中 就 不 能 再 设置 为 False 

T 。 另 外 ， 如 果 在 块 中 定义 了 另外 的 变量 作用 域 ， 它 们 会 目 动 继承 
resue=True。 最 后 ， 只 有 通过 get_variable () 创建 的 变量 才 可 以 用 这 种 
方式 来 进行 复 用 。 

现在 你 已 经 看 到 了 所 有 能 让 relu () 函数 无 须 通 过 传 入 参数 就 访问 
threshold 变 量 的 方法 了 : 


def relu(X): 
with tf.variable_scope("relu", reuse=True): 


threshold = tf.get_variable("threshold") # reuse existing variable 


return tf.maximum(z, threshold, name="max"') 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 
with tf.variable_scope("relu"): # create the variable 
threshold = tf.get_variable("threshold", shape=(), 
initializer=tf.constant_initializer(0.0)) 
relus = [relu(X) for relu_index in range(5) ] 


output = tf.add_n(relus, name="output") 


这 上段 代码 首先 定义 了 relu () 函数 ， 然 后 创建 了 reluw/threshold 变 量 〈 作 
为 一 个 标量 ， 会 被 初始 化 为 0.0) 并 通过 调用 relu () 画 数 构建 了 5 个 
ReLU ° Relu () 函数 复 用 了 relu/threshold 变 量 ， 并 创建 其 他 的 ReLU 节 


O 
INN 


Mtget variable () 创建 的 变量 总 是 以 它们 的 variable_scope 作 为 前 
级 来 命名 的 (比如 "relu/threshold") ， 对 于 其 他 节点 (包括 通过 
tf.Variable () 创建 的 变量 ) 变量 作用 域 的 行为 就 好 像 是 一 个 新 的 作用 
域 。 具 体 来 说 ， 如 果 一 个 命名 作用 域 有 一 个 已 经 创建 了 的 变量 名 ， 那 
入 就 会 加 上 一 个 后 级 以 保证 其 唯一 性 。 比 如 ， 上 面 例子 中 的 所 有 变量 
(除了 threshold 变 量 ) 都 有 一 个 “relu_1” 到 “relu_5” 的 前 级 ， 见 图 9-8。 
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图 9-8: 5 个 共享 阐 值 变量 的 ReLU 


遗憾 的 是 ，threshold 变 量 必须 定义 在 relu () 画 数 之 外 ， 其 他 所 有 的 
ReLU 代 码 都 在 内 部 。 要 解决 这 个 问题 ， 下 面 的 代码 在 relu () KAE 
一 次 调用 时 创建 了 threshold 变 量 ， 并 在 后 续 的 调用 中 复 用 。 现 在 relu 

O 函数 无 须 关 注 命名 作用 域 或 者 变量 共享 问题 ， 它 只 需要 调用 
get_variable () ， 来 创建 或 者 复 用 threshold 变 量 (无 须 关 心 到 底 是 创建 
还 是 复 用 ) 。 剩 下 的 代码 调用 了 relu O 5 次 ， 确 保 第 一 次 调用 时 将 
reuse 设 置 为 False， 后 续 的 调用 将 reuse 设 置 为 True ° 


def relu(X): 


threshold = tf.get_variable("threshold", shape=(), 


initializer=tf.constant_initializer(0.0)) 


return tf.maximum(z, threshold, name="max") 


X = tf.placeholder(tf.float32, shape=(None, n_features), name="X") 


relus = [] 
for relu_index in range(5): 
with tf.variable_scope("relu", reuse=(relu_index >= 1)) as scope: 
relus.append(relu(X) ) 


output = tf.add_n(relus, name="output") 


结果 图 中 之 前 的 聊 有 不 同 ， 因 为 共 训 变量 在 第 一 个 ReLU 中 《 见 图 
9 o 
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图 9-9: 5 个 共享 threshold 变 量 的 ReLU 
TensorFlow 的 介绍 就 到 此 为 止 了 。 我 们 将 在 后 续 的 章节 中 讨论 更 多 的 高 
级 主题 ， 特 别 是 与 深度 神经 网 络 、 卷 积 神经 网 络 、 复 发 神经 网 络 相 关 
的 操作 ， 以 及 如 何 通过 多 线程 、 队 列 、 多 GPU、 多 服务 右 等 对 
TensorFlow 进 行 扩容 。 

[1] 理论 上 来 说 ， 创 建 一 个 ReLU 类 是 最 清晰 的 做 法 ， 不 过 非常 重量 级 。 
BS] 


1. 相 比 直 接 执行 计算 ， 创 建 计 算 图 的 最 大 优点 是 什么 ? 最 大 的 缺点 呢 ? 


2. 语 句 a_val=a.eval (session=sess) #lla_val=sess.run (a) 等 价 吗 ? 


3. 语 句 a_val，b val=a.eval (session=sess) , b.eval (ses sion=sess) 和 
a_val, b_val=sess.run ([a，b]) 等 价 吗 ? 


4. 你 可 以 在 同一 个 会 话 中 运行 两 个 图 吗 ? 
5. 假 设 你 创建 了 一 个 包含 变量 w 的 图 ， 然 后 在 两 个 线程 中 分 别 启动 一 个 


6. 变 量 何 时 被 初始 化 ， 又 在 何 时 被 销毁 ? 
7. 占 位 人行 和 变量 的 区 别 是 什么 ? 


8. 如 条 对 一 个 依赖 于 占 位 符 的 操作 求 值 ， 但 是 又 没有 为 其 传 值 ， 会 发 生 
什么 ? 如 果 这 个 操作 不 依赖 于 占 位 符 呢 ? 


9. 运 行 一 个 图 时 ， 可 以 为 任意 操作 输出 值 ， 还 是 只 能 输出 占 位 符 的 值 ? 
10. 在 执行 期 ， 你 如 何 为 一 个 变量 设置 任意 的 值 ? 


11. 反 加 模式 autodifft 需 要 多 少 次 遍历 图 形 才 能 计算 10 个 变量 的 成 本 函数 
的 梯度 ? 正 向 模式 autodiff 怎 么 样 ? 符号 微分 呢 ? 


12. 用 小 批量 梯度 下 降 法 来 实现 逻辑 回归 。 用 月 腕 数据 集 来 训练 和 评估 
(数据 见 第 5 章 ) 。 演 试 下 面 这 些 任务 : 


.在 函数 logistic_regression () 中 定义 可 以 被 复 用 的 图 。 


-在 训练 过 程 中 ， 定 期 地 通过 Saver 将 检查 点 傈 存 起 来 ， 并 将 最 后 的 模型 
保存 起 来 。 


如 采 训 练 被 终止 了 ， 恢 复 之 前 保存 的 模型 。 

用 合理 的 作用 域 来 定义 图 ， 使 得 其 在 TensorBoard 上 看 起 来 比较 漂亮 。 
:添加 汇总 信息 以 在 TensorBoard 中 可 视 化 学 习 曲 线 。 

调整 诸如 学 习 速 率 和 批 次 大 小 等 超 参 数 ， 并 得 看 学 习 曲 线 的 形状 。 


练习 的 参考 答案 详 见 附 永 A。 
第 10 章 ”人 工 神 经 网 络 简 介 


我 们 从 乌 类 那里 得 到 启发 ， 学 会 了 飞翔 ， 从 牛 劳 那 里 得 到 启发 ， 发 明 
了 魔术 贴 ， 还 有 很 多 其 他 的 发 明 都 是 被 自然 所 启发 。 这 么 说 来 看 看 大 
脑 的 组 成 ， 并 期 望 因此 而 得 到 局 发 来 构建 智能 机 器 就 显得 很 合 竹 逻辑 
了 。 这 也 是 人 工 神经 网 络 (ANN) 思想 的 根本 来 源 。 不 过 ， 虽 然 飞 机 
的 发 明 受 马 类 的 局 发 ， 但 古 它 并 不 用 炉 动 交 膀 来 飞翔 。 同 样 ， 人 工 神 
经 网 络 和 它 的 生物 版 本 也 有 很 大 产 寞 。 甚 至 有 些 研 究 者 认为 应 该 放弃 
对 生物 类 比 的 使 用 (比如 ， 称 其 为 “单元 ”而 不 是 “神经 元 ”) ， 以 免 我 们 
将 创造 力 限制 在 生物 学 (由 上 。 


人 工 神经 网 络 是 深度 学 习 的 核心 中 的 核心 。 它 们 通用 、 强 大 、 可 扩 
展 ， 使 得 它 成 为 解决 大 型 和 高 度 复杂 的 机 器 学 习 任务 的 理想 选择 。 比 
如 将 数 以 亿 计 的 图 片 分 类 (如 Google Images) ,支撑 语音 识别 服务 

(如 Apple 的 Siri) ， 为 数 以 千 万 计 的 用 户 每 天 推荐 最 佳 视 频 (如 
YouTube) ， 通 过 研究 之 前 的 数 百 万 次 的 比赛 并 不 断 地 和 上 自己 比赛 ， 在 
围棋 比赛 中 击败 世界 冠军 (DeepMind 的 AlphaGo) 。 


本 章 将 通过 第 一 个 ANN 架 构 的 快速 教程 来 介绍 人 工 神经 网 络 。 然 后 会 
展示 多 层 感 知 器 (MLP) 并 用 TensorFlow 来 实现 一 个 MLP， 并 用 其 来 解 
决 MNIST 数 字 分 类 问题 〈( 见 第 3 章 ) 。 


[1]. 充 分 接受 生物 学 上 的 局 发 ， 又 无 须 担 心 生物 学 上 的 不 可 能 性 ， 可 以 
让 我 们 充分 得 到 两 个 世界 的 最 大 价值 。 


从 生物 神经 元 到 人 工 神 经 元 


令 人 司 讶 的 是 ，ANN 已 经 存在 了 好 长 时 间 了 : 最 早 在 1943 年 由 神经 学 
家 Warren McCulloch 和 数学 家 Walter Pitts 提 出 。 在 他 们 著名 的 论文 “A 
Logical Calculus of Ideas Immanent in Nervous Activity” ( 
https://g00.gVUl4mxW ) [由 中 ，McCulloch 和 Pitts 展 示 了 一 个 简化 过 的 
计算 模型 来 描述 在 动物 的 大 脑 中 ， 神 经 元 如 何 通过 命题 逻辑 来 实现 复 
杂 的 计算 。 这 是 第 一 个 人 工 神经 网 络 架 构 ， 正 如 我 们 将 要 看 到 的 ， 从 
那 之 后 还 有 很 多 其 他 类 型 的 架构 被 发 明 出 来 。 


直到 20 世 纪 60 年 代 ，ANN 的 早期 成 功 让 人 们 普遍 认为 ， 我 们 很 快 将 会 
与 真正 智能 的 机 器 对 话 。 当 明确 表示 这 一 承诺 (至 少 在 一 段 时 间 内 ) 

将 不 会 实现 时 ， 资 金 就 投向 了 其 他 地 方 ，ANN 进 入 了 漫长 的 黑暗 时 

期 。 在 20 世 纪 80 年 代 初 ， 随 着 新 网 络 架 构 的 发 明和 更 好 的 培训 技术 的 
发 展 ， 人 们 对 ANN 的 兴趣 又 重新 变 得 浓厚 。 不 过 到 了 20 世 纪 90 年 代 ， 

更 强大 的 机 器 学 习 技 术 如 支持 向 量 机 〈 见 第 5 章 ) 成 为 大 部 分 研究 者 的 
新 宠 ， 因 为 它们 似乎 提供 了 更 好 的 结果 和 更 强大 的 理论 基础 。 最 终 ， 

我 们 见证 了 另 一 波 对 ANN 兴 趣 的 高 潮 。 这 次 高 潮 会 像 上 一 次 那样 归于 
URIS? 有 很 多 的 原因 可 以 相信 这 一 次 会 不 同 ， 而 且 会 给 我 们 的 生活 
带 来 很 多 的 影响 : 


:现在 有 了 海量 的 可 用 数据 来 训练 神经 网 络 ， 而 且 在 超大 超 复 杂 问 题 上 
ANN 比 其 他 的 ML 技术 性 能 更 佳 。 


目 20 世 纪 90 年 代 以 来 ， 飞 速 增长 的 计算 能 力 使 得 在 合理 时 间 内 训练 大 
型 神经 网 络 成 为 可 能 。 部 分 原因 是 摩尔 定律 在 生效 ， 不 过 也 要 感谢 游 
戏 产 业 ， 它 们 制造 了 数 以 百 万 计 的 强大 的 GPU 。 


训练 算法 也 得 到 了 很 大 的 提升 。 坦 日 说 与 20 世 纪 90 年 代 相 比 ， 算 法 只 
有 一 点点 不 同 ， 但 是 这 些小 的 调整 产生 了 巨大 的 正面 影响 。 


ANN 的 一 些 理论 限制 在 实践 中 被 证 明 是 可 以 接受 的 。 比 如 ， 很 多 人 认 
为 训练 算法 是 注定 要 失败 的 ， 因 为 算法 在 局 部 优化 时 很 可 能 被 卡 住 ， 

不 过 这 种 情况 在 实践 中 非常 少见 (或 者 即使 出 现 了 ， 它 们 往往 和 全 局 
优化 值 已 经 非常 接近 ) 。 


ANN 似乎 进入 了 资金 和 技术 进步 的 民 性 循环 。 基 于 ANN 的 惊人 产品 不 
断 地 出 现在 头条 ， 从 而 吸引 更 多 的 关注 和 资金 投入 ， 这 又 会 使 其 产生 
新 的 进步 ， 然 后 产生 更 多 令 人 惊讶 的 产品 。 


生物 神经 元 


在 讨论 人 工 神 经 元 之 前 ， 我 们 先 来 快速 看 一 下 生物 神经 元 (如 图 10-1 所 
示 ) 。 这 是 一 种 通常 会 出 现在 动物 的 大 脑 皮 层 中 的 非凡 细胞 (比如 在 
你 的 大 脑 中 ) ， 由 包含 细 胞 核 和 大 部 分 细胞 复合 成 分 的 细胞 体 组 成 ， 

有 许多 分 村 延伸 的 部 分 称 为 树 突 ， 一 个 非 第 长 的 延伸 称 为 轴 突 。 轴 突 
的 长 度 可 能 比 细胞 体 长 几 倍 ， 或 者 长 达 几 万 倍 。 在 其 极端 附近 ， 轴 突 
分 和 裂 成 许多 被 称 为 终 树 突 的 分 文 ， 在 这 些 分 文 的 尖端 征 称 为 突 触 终 疹 


(或 简单 的 突 触 ) 的 微小 结构 ， 它 会 连接 到 其 他 神经 元 的 树 突 (或 直 
接连 接 到 细胞 体 ) 。 人 生物 神经 元 通过 这 些 突 触 接受 从 其 他 细胞 发 来 的 
很 短 的 电 脉冲 ， 这 种 脉冲 被 称 为 信号 。 当 一 个 神经 元 在 一 定 的 时 间 内 
收 到 足够 多 的 信和 号， 整 会 出 发 它 目 己 的 信和 号 。 
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图 10-1: 生物 神经 元 [4 


单个 的 生物 神经 元 看 起 来 非常 简单 ， 但 是 别 筷 了 数 以 亿 计 的 神经 元 组 
成 了 一 个 巨大 的 网 络 ， 每 个 神经 元 都 会 与 数 和 干 个 其 他 的 神经 元 链接 。 
超级 复杂 的 计算 也 可 以 通过 这 些 简单 的 神经 元 来 完成 ， 束 好 比 非 常 复 
杂 的 蚁 丘 可 以 通过 蚂蚁 来 完成 一 样 。 生 物 神 经 网 络 架 构 中 仍然 是 一 个 
非常 活跃 的 研究 主题 ， 不 过 大 脑 的 部 分 区 域 已 经 被 映射 好 了 ， 神 经 元 
往往 会 按照 连续 的 层次 来 组 织 ， 如 图 10-2 所 示 。 
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图 10-2， 生 物 神经 网 络 的 多 个 层次 (人 类 大 脑 皮层 ) 多 
具有 神经 元 的 多 辑 计算 


Warren McCulloch 和 Walter Pitts 提 出 了 一 个 生物 神经 元 的 简化 模型 ， 这 
种 模型 后 来 被 称 为 人 工 神经 元 : 它 有 一 个 或 多 个 二 进 制 〈 开 / 关 ) 的 输 
入 和 一 个 二 进 制 输出 。 当 一 定数 量 的 输入 都 是 激活 状态 时 ， 人 工 神经 
元 就 会 激活 其 输出 。McCulloch 和 Pitts 展 示 了 即使 用 如 此 简单 的 模型 ， 

也 可 能 构建 一 个 可 以 计算 任意 复杂 逻辑 的 网 络 出 来 。 举 个 例子 ， 我 们 
来 构建 一 个 执行 多 种 逻辑 计算 的 人 工 神经 网 络 〈 见 图 10-3) ， 假 设 当 一 
个 神经 元 的 至 少 两 个 输入 是 激活 状态 时 它 自 身 就 会 处 于 激活 状态 。 
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图 10-3: 计算 简单 逻辑 计算 的 人 工 神经 网 络 


: 左 侧 的 第 一 个 网 络 十 一 个 简单 的 等 同 钞 数 ， 如 果 神 经 元 A 是 油 活 的 ， 
那么 C 就 是 激活 的 ( 它 从 A 接受 了 两 个 输入 信号 ; ， 如 果 A 是 非 激活 
的 ， 则 C 也 有 是非 激活 的 。 


第 二 个 网 络 计算 逻辑 与 ， 只 有 当 A 和 B 都 处 于 激活 状态 ，C 才 会 激活 
(单独 的 一 个 输入 并 不 足以 激活 C) 。 


第 三 个 网 络 计算 逻辑 或 ，A 和 B 中 有 一 个 (或 者 两 者 都 ， 处 于 激活 时 ， 
C 残 会 被 激活 。 


最 后 ， 我 们 假设 输入 可 以 抑制 神经 元 的 激活 状态 (正如 生物 神经 网 络 
中 那样 ) ， 那 么 第 四 个 网 络 计算 的 束 是 一 个 比较 复杂 的 逻辑 操作 : 只 
有 在 A 是 激活 而 且 B 是 非 激活 时 ， 神 经 元 C 才 会 处 于 激活 状态 。 如 果 A 一 
那 你 就 得 到 了 逻辑 非 : 当 B 非 激活 时 ，C 激 活 ， 反 之 亦 


你 可 以 很 容易 地 想象 用 这 些 网 络 如 何 组 合 出 更 复杂 的 逻辑 计算 (练习 
见 章节 末尾 处 ) 。 


感知 器 是 最 简单 的 ANN 架 构 之 一 ， 于 1957 年 由 Frank Rosenblatt 发 明 。 
一 个 稍微 不 同 的 被 称 :为 线性 BAA (LTU) 的 人 工 神经 元 ( 见 


DIE 
Pn 


110-4) : 输入 和 输出 都 是 数字 〈 而 不 是 二 进 制 的 开关 状态 ) ， 每 个 输 
入 的 连接 都 有 一 个 对 应 的 权重 。LTU 会 加 权 求 和 所 有 的 输入 (z=w 1x1 
twXot...¢w,x,=wl-x) ， 然 后 对 求 值 结果 应 用 一 个 阶 跃 画 数 (step 
funciton) 并 产生 最 后 的 输出 : hy (x) =step (z) =step (wI'X) 。 


感知 器 中 最 常见 的 阶 跃 范 数 叫 作 Heaviside 阶 路 函数 ( 见 公式 10-1) ， 有 
时 候 会 使 用 市 符号 的 函数 。 


输出 ; h(x)=step(W.x) 


阶 跃 函数 ，step(2) 
MAA; w.x 


x x) %) ih) 


图 10-4: ert Bd (AIC 
公式 10-1: RAD aS AS LEK EK BY 


0 (<0) -| (z<0) 
< 
heaviside(z) = sn(z) = (0 (z=0) 
| (220 
+1 (z>0) 


单个 LTU 可 以 用 来 做 和 商 单 的 线性 二 值 分 类 。 它 计算 输入 的 线性 组 合 ， 如 
果 结 果 超 出 了 靖 值 ， 输 出 就 是 正 否 则 为 负 (与 逻辑 回归 分 类 器 或 者 线 
性 支持 向量 机 一 样 ，。 举 个 例子 ， 你 可 以 用 一 个 LTU 来 根据 论辩 的 长 度 


MBER Set (正如 我 们 在 上 一 革 做 的 ， 添 加 一 个 xo=1 偏 差 ) 。 
训练 LITU 的 意思 是 寻找 wo、w1 和 ws> 的 正确 值 〈 训 练 算法 竺 会 讨 
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感知 器 束 古 个 单 层 的 LTU 5 中， 每 个 神经 元 都 与 所 有 输入 相连 。 这 些 连 
接 通 香 使 用 称 为 输入 神经 元 的 特殊 传递 神经 元 来 表示 : WAAT A 
出 什么 。 此 外 ， 还 会 加 上 一 个 额外 的 偏差 特征 (xy =1) 。 偏 差 特征 通 
常用 但 差 神 经 元 来 表示 ， 它 永远 都 只 输出 1。 


图 10-5 展 示 了 一 个 有 两 个 输入 和 三 个 输出 的 感知 器 。 这 个 感知 器 可 以 将 
实例 同时 分 为 三 个 不 同 的 二 进 制 类 ， 因 此 它 被 称 为 多 输出 分 类 天 。 


输出 


偏差 神经 元 


图 10-5: 感知 器 图 


那么 感知 器 是 如 何 被 训练 的 呢 ? Frank Rosenblatt 提 出 的 感知 器 训练 算法 
很 大 程度 上 受到 Hebb’s 定 律 的 启发 。 在 他 1949 年 出 版 的 著作 《行为 的 组 
织 》 中 ，Donald Hebb 提 到 如 果 一 个 生物 神经 元 总 是 触发 另外 的 神经 
元 ， 那 么 这 两 个 神经 元 之 间 的 连接 职 会 变 得 更 强 。 这 个 想法 后 来 被 
Siegrid Lowel 总 结 为 : 同时 处 于 激活 状态 的 细胞 是 会 连 在 一 起 的 。 这 个 
规律 后 来 变 成 了 著名 的 Hebb 定 律 〈 又 叫 Hebbian 学 习 ) : 当 两 个 神经 元 
有 相同 的 输出 时 ， 它 们 之 间 的 连接 权重 就 会 增强 。 感 知 器 就 是 使 用 这 
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出 的 连接 ， 它 不 会 加 强 该 连接 的 权重 。 更 具体 地 说 ， 感 知 器 一 次 供给 
一 个 训练 实例 ， 并 且 对 于 每 个 实例 它 都 会 进行 预测 。 对 于 产生 错误 预 
测 的 每 个 输出 神经 元 ， 它 加 强 了 来 目 输 入 的 连接 权重 ， 这 将 对 正确 的 
预测 做 出 贡献。 规则 见 公式 10-2。 


公式 10-2: 感知 右 学 习 规则 (权重 更 新 ) 


(next step) _ $ 

Wi = + ny, = yji, 
wi j 是 第 i 个 输入 神经 元 和 第 j 个 输出 神经 元 的 连接 权重 。 
Xi 是 当前 训练 实例 的 第 i 个 输入 值 。 
.六 是 当前 训练 实例 的 第 j 个 输出 神经 元 的 输出 。 
yj 是 当前 训练 实例 的 第 j 个 输出 神经 元 的 目标 输出 。 
是 学 习 速 率 。 
每 个 输出 神经 元 的 决策 边界 是 线性 的 ， 所 以 感知 器 无 法 学 习 复 杂 的 模 
式 (这 点 和 逻辑 回归 分 类 器 一 样 ) 。Rosenblatti 正 明 如 果 训 练 实例 是 线 
性 可 分 的 ， 这 个 算法 会 收敛 到 一 个 解 中。 这 被 称 为 感知 器 收 钱 定理 。 
Scikit-Learn 提 供 了 一 个 实现 单一 LITU 网 络 的 Perceptron 类 。 它 基本 可 以 
在 高 尾 花 数据 集 上 如 期 工作 〈 见 第 4 章 ) : 

T 
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from sklearn.linear_model import Perceptron 


iris = load_iris() 

x = iris.data[:, (2, 3)] # petal length, petal width 
y = (iris.target == 0).astype(np.int) # Iris Setosa? 
per_clf = Perceptron(random_state=42) 


per_clf.fit(X, y) 


y_pred = per_clf.predict([[2, 0.5]]) 


(is BY Be AE E BURA a >) RZ ER RE RRA o EXE, 在 
Scikit-Learn 里 ，Perceptron 类 的 行为 等 同 于 使 用 以 下 超 参 数 的 
SGDClassifier: loss="perceptron", learning_rate="constant", eta0=1 (学 


习 速 率 ) ， 以 及 penalty=None (不 做 正则 化 ) ° 


注意 和 逻辑 回归 分 类 器 相反 ， 感 知 器 不 输出 某 个 类 概率 。 它 只 能 根据 
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在 1969 年 的 名 为 《感知 器 》 的 专著 中 ，Marvin Minsky 和 Seymour Papert 

强调 了 感知 器 的 一 系列 缺点 ， 特 别 是 它 无 法 处 理 的 一 些 很 微小 的 问 

题 ， 比 如 异 或 分 类 问题 (XOR) ， 见 图 10-6 左 侧 。 当 然 这 个 问题 在 其 

他 任何 的 线性 分 类 模型 中 一 样 存 在 ， 只 不 过 研究 者 对 感知 器 的 期 望 太 

高 ， 因 此 失望 也 更 大 : 结果 就 是 ， 很 多 研究 者 完全 放弃 连接 机 制 
(connectionism ， 即 神经 网 络 的 研究 ) ， 而 倾向 于 更 高 层次 的 问题 ， 如 

逻辑 、 问 题解 决 和 搜索 。 


不 过 ， 事 实证 明 感 知 器 的 一 些 限制 可 以 通过 将 多 个 感知 器 堆 释 起 来 的 
方式 来 消除 ， 这 种 形式 的 ANN 就 是 多 层 感知 器 (Multi-Layer 
Perceptron) 。 实 践 中 ，MLP 可 以 解决 异 或 问题 ， 比 如 可 以 计算 一 下 图 
10-6 中 的 MLP 的 结果 来 验证 ， 对 于 输入 的 不 同 组 合 ， (0，0) 或 者 
(1, 1) 会 产生 0， 而 (0, 1) 或 者 则 产生 1。 


图 10-6: 异 或 分 类 问题 和 用 来 解决 它 的 MLP 
多 层 感知 器 和 反问 传播 


一 个 MLP 包 含 一 个 GET) 输入 层 ， 一 个 或 者 多 个 被 称 为 隐藏 层 的 
LTU 层 ， 以 及 一 个 被 称 为 输出 层 的 LTU 组 成 的 最 终 层 〈 见 图 10-7) 。 除 
了 输出 层 之 外 ， 每 层 都 包含 了 一 个 偏 移 神经 元 ， 并 且 与 下 一 层 完全 相 
II 则 被 称 为 深度 神经 网 
络 (DNN) ° 


图 10-7: 多 层 感知 器 


多 年 来 ， 人 研究 者 都 为 如 何 训练 MLP 而 头疼 不 已 ， 一 直 没 有 进展 。 直 到 
1986 年 ，D.E.Rumelhart 发 表 了 一 篇 介绍 反 回 传播 训练 算法 和 的 开创 性 
论文 (https:/goo.gVUWIZXyc ) [。 今 天 我 们 称 其 为 使 用 了 反 向 自动 微 
分 的 梯度 下 降 法 (梯度 下 降 在 第 4 章 介 绍 过 ， 自 动 微分 在 第 9 章 介绍 


i 


对 于 每 一 个 训练 实例 ， 算 法 将 其 发 送 到 网 络 中 并 计算 每 个 连续 层 中 的 
每 个 神经 元 的 输出 (这 是 正 向 过 程 ， 与 做 预测 的 过 程 一 样 )。 然 后 它 
会 度量 网 络 的 输出 误差 (对 比 期 望 值 和 实际 的 网 络 输出 )  ， 然 后 它 会 
计算 最 后 一 个 隐藏 层 中 的 每 个 神经 元 对 输出 神经 元 的 误差 的 贡献 度 。 
之 后 它 继 续 测 量 这 些 误 差 页 献 中 有 多 少 来 目前 一 个 隐藏 层 中 的 每 个 神 
经 元 ， 这 个 过 程 一 直 持 续 到 输入 层 〈 也 就 是 第 一 层 ) 。 这 个 反 向 传递 
过 程 通过 在 网 络 中 向 后 传播 误差 梯度 有 效 地 测量 网 络 中 所 有 连接 权重 
的 误差 梯度 (这 也 是 它 名 字 的 来 源 ) 。 如 末 你 看 一 下 附录 DD 中 的 反 向 目 
动 微分 算法 ， 你 会 发 现 反 向 传播 的 正 向 和 反 向 传递 都 只 是 简单 地 执行 


反问 模式 的 目 动 微 分 。 反 加 传播 算法 的 最 后 一 步 是 对 网 络 中 所 有 连接 
权重 执行 梯度 下 降 法 ， 使 用 之 前 度量 的 误差 梯度 。 


简 而 言 之 ， 对 于 每 个 训练 实例 ， 反 向 传播 算法 先 做 一 次 预测 GEE 
程 ，， 上 度量 误差 然后 反 向 的 遍历 每 个 层次 来 度量 每 个 连接 的 误差 页 
献 度 ( 反 向 过 程 ，， 最 后 再 微调 每 个 连接 的 权重 来 降低 误差 (梯度 下 


降 ) 


为 了 让 这 个 算法 正常 工作 ， 作 者 对 MLP 架 构 做 了 一 个 关键 的 调整 ， 把 
阶 跃 函 数 改 成 了 逻辑 函数 : o (z) =1/ (1+exp (-z) ) 。 这 是 非常 关键 
的 一 步 ， 因 为 阶 跃 函数 只 包含 平面 ， 所 以 没有 梯度 (梯度 下 降 在 平面 
上 无 法 移动 ) ， 但 是 逻辑 函数 则 有 着 定义 良好 的 偏 导 ， 梯 度 下 降 可 以 
在 每 一 步 都 做 调整 。 除 了 逻辑 函数 ， 反 向 传播 算法 还 可 以 和 其 他 激活 
函数 一 起 使 用 。 最 流行 的 两 个 激活 函数 是 : 

双 曲 正切 函数 (z) =20 (2z) -1 

与 逻辑 函数 类 似 ， 它 是 一 个 S 形 曲线 ， 连 续 且 可 微分 ， 不 过 它 的 输出 
是 -1 到 1 之 间 的 值 《逻辑 是 0 到 1 之 间 的 值 ) ， 这 会 计 每 层 的 输出 在 训练 
开始 时 或 多 或 少 地 标准 化 〈 以 0 为 中 心 ) 。 这 通常 有 助 于 快速 融合 。 
ReLUENA (在 第 9 章 介 绍 过 ) 

ReLU (z) =max (0, z) 。 这 个 函数 也 是 连续 的 ， 不 过 在 z=0 时 不 可 微 
分 (坡度 的 突然 变化 可 以 使 梯度 下 降 反 弹 ) 。 不 过 实践 中 它 工作 良 
好 ， 而 且 计 算 速 度 很 快 。 最 重要 的 是 ， 由 于 它 没有 最 大 输出 值 ， 对 于 
消除 梯度 下 降 的 一 些 问题 很 有 帮助 (我们 将 在 第 11 章 详细 讨论 ) 

这 些 常 见 激 活 函 数 和 它们 的 导数 如 图 10-8 所 示 。 


图 10-8: 激活 函数 和 它们 的 导数 


MLP 常 常 被 用 来 做 分 类 ， 每 个 输出 对 应 一 个 不 同 的 二 进 制 分 类 ( 比 
如 ， 垃 圾 邮件 /正常 邮件 、 紧 急 / 非 紧急 ， 等 等 。 当 每 个 分 类 是 互 不 的 
情况 下 《比如 将 图 片 分 类 为 数字 0~-9 的 场景 ) ， 输 出 层 通常 被 修改 成 
一 个 共享 的 soft-max 函 数 〈 见 图 10-9) 。softmax 了 范 数 在 第 3 章 介 绍 过 。 
每 个 神经 元 的 输出 对 应 于 相应 分 类 的 估计 概率 。 注 意 信号 是 单 向 流动 
的 a ， 所 以 这 种 架构 是 前 馈 神经 网 络 (FNN) 的 一 
Nye fil] o 


W ETRETANT, 所 以 研究 者 化 了 
很 长 时 间 在 S 形 函数 上 。 但 事实 证 明 ，ReLU 激 活 函 数 通常 在 ANN 中 工 
作 得 更 好 ， 这 是 被 生物 类 比 误导 的 案例 之 一 。 


图 10-9: 用 以 分 类 的 现代 MLP (包含 ReLU 和 softmax) 


[1 “神经 活动 中 内 在 思想 的 逻辑 演算 ”，WMcCuloch 和 W.Pitts 
(1943) ° 


[2]_ 图 F H Bruce Blaus fo fe (知识 共享 30, 
https://creativecommons.org/licenses/by/3.0/ _) 转 Mm B 
https://en.wikipedia.org/wiki/Neuron ° 


[3] 在 机 器 学 习 的 上 下 文中 , “神经 网 络 "一 般 指 的 是 人 工 神经 网 络 ， 而 
不 是 生物 神经 网 络 。 


[4]. S.Ramon y Caja (1 公共 领域 ) 绘制 大 脑 皮 质 层 。 转 载 自 


https://en.wikipedia.org/wiki/Cerebral_cortex ° 


[5]_Perceptron 有 时 用 来 表示 具有 单个 LITU 的 小 型 网 络 。 


[6] 注意 答案 往往 不 唯一 ， 通 常 来 说 ， 如 果 数 据 是 线性 可 分 的 ， 那 么 总 
有 一 个 无 线 的 超 平面 可 以 划分 它们 。 


[7]“ 通 过 错误 传播 学 习 内 部 表示 ”，D.Rumelhart、G.Hinton 和 R.Williams 
(1986) 。 

[8] 该 算法 实际 由 不 同 领域 的 多 个 研究 人 员 发 明 ， 从 1974 年 ，PWerbos 

的 研究 开始 。 

用 TensorFlow 的 高 级 API 来 训练 MLP 


用 TensorFlow 训 练 MLP 的 最 简单 方式 是 使 用 它 的 高 级 API TF.Learn, ix 
和 Scikit-learn 的 API 非 党 类似。 用 DNNClassifier 类 来 训练 一 个 有 着 任意 
数量 隐藏 层 ， 并 包含 一 个 用 来 计算 类 别 概率 的 softmax 输 出 层 的 深度 神 
经 网 络 都 易如反掌 。 比 如 ， 下 面 的 代码 训练 一 个 用 于 分 类 有 两 个 隐藏 
E (一 个 有 300 个 神经 元 ， 男 一 个 有 100 个 ) ， 以 及 一 个 softmax 输 出 层 


的 具有 10 个 神经 元 的 DNN: 


import tensorflow as tf 


feature_columns = tf.contrib.learn.infer_real_valued_columns_from_input(X_train) 
dnn_clf = tf.contrib.learn.DNNClassifier(hidden_units=[300, 100], n_classes=10, 


feature_columns=feature_columns) 


dnn_clf.fit(x=X_train, y=y_train, batch_size=50, steps=40000) 


如 果 你 在 MNIST 数 据 集 来 执行 上 面 的 代码 〈 缩 放 之 后 ， 例 如 使 用 Scikit- 
Leam 的 StandardScaler 来 缩放 ) ， 你 可 以 得 到 一 个 在 测试 集 上 的 准确 率 
达到 98.1% 的 模型 ! 这 比 第 3 章 里 最 好 的 模型 还 要 好 : 


>>> from sklearn.metrics import accuracy_score 
>>> y_pred = list(dnn_clf.predict(X_test) ) 
>>> accuracy_score(y_test, y_pred) 


0.98180000000000001 


REDS T HET NRO BL. 


>>> dnn_clf.evaluate(X_test, y_test) 
{'accuracy': 0©.98180002, 'global_step': 40000, 'loss': 0©.073678359} 
在 幕后 ，DNNClassifier 类 基于 ReLU 激 活 函 数 (我 们 可 以 通过 设置 


activation_fn 超 参数 来 调整 ， 创 建 所 有 的 神经 元 层次 。 输 出 层 依赖 于 
softmax EA 3, BUA ERE XA ( 详 见 第 4 章 ) 。 


Be TF.Learn API 还 是 比较 新 的 ， 所 以 在 阅读 本 书 时 ， 例 子 中 使 用 的 名 
称 和 函数 可 能 会 有 所 发 展 ， 不 过 基本 的 理念 是 不 变 的 。 


使 用 纯 TensorFlow 训 练 DNN 


如 果 你 想 对 网 络 的 架构 有 更 多 的 控制 ， 你 可 以 使 用 TensorFlow 的 低级 
Python API ( 见 第 9 章 ) 。 在 本 节 我 们 会 用 低级 API 构 建 一 个 和 上 一 节 相 
同 的 模型 ， 实 现 一 个 小 批 次 梯度 下 降 来 训练 MNIST 数 据 集 。 首 先是 构 
建 阶 段 ， 建 立 TensorFlow 的 计算 图 ， 第 二 步 是 执行 阶段 ， 具 体 运 行 这 个 
图 来 训练 模型 。 


构建 阶段 


首先 需要 引入 TensorFlow 库 ， 然 后 是 指定 输入 和 输出 的 个 数 ， 并 设置 每 
FAA Bape ZS CY TR: 


import tensorflow as tf 


n_inputs = 28*28 # MNIST 
n_hiddeni = 300 
n_hidden2 = 100 


n_outputs = 10 


接 下 来 ， 与 第 9 章 一 样 ， 你 可 以 使 用 占 位 符 币 点 来 表示 训练 数据 和 目 
标 。X 的 形状 只 做 了 部 分 定义 。 我 们 知道 它 会 是 一 个 二 维 的 张 量 (一 个 
和 矩阵) ， 一 个 维度 是 实例 ， 另 一 个 维度 是 特征 ， 我 们 还 知道 特征 的 数 
量 为 28x28 (每 个 像素 一 个 特征 ) ， 但 是 我 们 还 不 知道 每 个 训练 批 次 将 
包含 多 少 个 实例 。 因 此 X 的 形状 为 (None，n_inputs) 。 类 似 的 我 们 知 
道 y 是 一 个 一 维 的 张 量 ， 每 个 实例 都 有 一 个 入 口 ， 但 是 我 们 现在 还 不 知 
道 训练 批 次 的 大 小 ， 所 以 形状 是 None。 


X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 


y = tf.placeholder(tf.int64, shape=(None), name="y") 


现在 我 们 来 创建 神经 网 络 。 占 位 符 节 点 X 将 用 作 输 入 层 ， 在 执行 期 ， 它 
每 次 都 会 被 训练 批 次 奉 换 (注意 训练 批 次 中 的 所 有 实例 将 由 神经 网 络 
同时 处 理 ) 。 然 后 你 需要 创建 两 个 隐藏 层 和 一 个 输出 层 。 两 个 隐藏 层 
基本 上 是 一 样 的 : 唯一 的 区 别 是 它们 和 谁 链接 ， 以 及 每 层 中 包含 的 神 
经 元 数量 。 输 出 层 也 一 样 ， 不 过 它 会 用 softmax 而 不 是 ReLU 作 为 激活 函 
数 。 我 们 创建 一 个 neuron_layer () 画 数 来 每 次 创建 一 个 层 。 它 需要 的 
参数 包括 : 和 输入、 神经 元 数量 、 激 活 函 数 、 层 次 的 名 字 : 


def neuron_layer(X, n_neurons, name, activation=None): 


with tf.name_scope(name): 


n_inputs = int(X.get_shape()[1]) 


stddev = 2 / np.sqrt(n_inputs) 
init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev) 
W = tf.Variable(init, name="weights") 
b = tf.Variable(tf.zeros([n_neurons]), name="biases" ) 
z = tf.matmul(X, W) + b 
if activation=="relu": 
return tf.nn.relu(z) 
else: 


return z 


我 们 来 逐 行 看 一 下 这 段 代 码 : 


1. 首 先 通 过 层 的 名 称 来 创建 一 个 作用 域 ， 它 将 包含 该 层 的 所 有 计算 机 节 
o o 不 过 如 果 广 点 组 织 得 很 好 ， 在 TensorBoard 上 图 看 起 
NRE Ef ==, 2 


2. 通 过 查看 输入 矩阵 的 形状 并 获取 第 二 个 维度 (第 一 个 维度 对 应 的 是 实 
例 ) 的 尺寸 来 决定 输入 的 数量 。 


3. 接 下 来 的 三 行 创建 了 一 个 保存 权重 矩阵 的 变量 W。 它 是 一 个 二 维 张 量 
包含 了 每 个 输入 和 每 个 神经 元 间 连 接 的 权重 ; Bik, EWER E 


(n_inputs, n_neurons) 。 我 们 使 用 标准 偏差 为 24 Dinos 的 截断 UEA 
(高 斯 ) 分 布 进 行 随 机 初始 化 。 使 用 一 个 指定 的 标准 偏差 会 让 算法 收 


敛 得 更 快 (我 们 在 第 11 章 会 进一步 讨论 ， 这 种 通过 微小 调整 就 会 获得 
巨大 收益 的 做 法 ) 。 为 所 有 隐藏 层 随机 地 初始 化 连接 权重 值 是 非常 重 
要 的 ， 这 可 以 避免 任何 可 能 导致 梯度 下 降 出 现 无 法 终止 的 对 称 性 。 纪 


4. 下 一 行 创建 了 变量 b 来 表示 偏差 ， 初 始 化 为 0 (这 里 没有 对 称 性 问 
题 ) ， 每 个 神经 元 有 一 个 偏差 参数 。 


5. 创 建 一 个 子 图 z=X"W+b。 对 于 批 次 中 的 所 有 实例 ， 该 向 量 实现 仅 通 过 
o BLE OUT BE I EY) BE PA AE: z LA 
I] © 


6. 最 后 ， 如 果 激 活 参 数 设置 了 "relu"， 代 码 会 返回 relu (z) (BH, max 
(0, z) ) ， 否 则 会 直接 返回 z 。 


好 了 ， 现 在 有 了 一 个 很 棒 的 创建 神经 元 的 函数 了 。 我 们 来 用 它 创 建 一 
个 深度 神经 网 络 吧 ! 第 一 个 隐藏 层 需要 X 作 为 其 输入 。 第 二 层 则 以 第 一 
层 的 输出 作为 输入 。 最 后 ， 输 出 层 以 第 二 层 的 输出 作为 输入 : 


with tf.name_scope("dnn"): 


hidden1 = neuron_layer(X, n_hiddeni, "hiddeni", activation="relu") 


hidden2 = neuron_layer(hiddeni, n_hidden2, "hidden2", activation="relu") 


logits = neuron_layer(hidden2, n_outputs, "outputs") 


注意 我 们 又 使 用 了 命名 空间 来 保持 名 字 的 清晰 。 另 外 ，logits 是 经 过 
softmax 激 活 函 数 之 前 神经 网 络 的 输出 : 基于 优化 的 考虑 ， 我 们 将 在 稍 
后 处 理 softmax 计 算 。 


如 你 所 想 ，TensorFlow 提 供 了 很 多 便利 的 函数 来 创建 标准 神经 网 络 层 ， 
所 以 通常 无 须 定 义 自 己 的 neuron_layer () 函数 。 比 如 TensorFlow 的 
fully_connected () 画 数 会 创建 全 连接 层 ， 其 中 所 有 输入 都 连接 到 该 层 
中 的 所 有 神经 元 。 这 个 函数 会 创建 权重 和 偏差 变量 ， 使 用 合适 的 初始 
化 策略 ， 使 用 ReLU 激 活 函 数 (可 以 通过 activation_fn 参 数 来 修改 ) 。 在 
第 11 章 我 们 会 看 到 ， 它 还 支持 规则 化 和 归 一 化 参数 。 我 们 用 


fully_connected () ERROR HRA CS neuron_layer () Wat, Ae 
FAKA SR DNNEY #4 ie BU FY : 


from tensorflow.contrib.layers import fully_connected 


with tf.name_scope("dnn"): 


hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni") 


hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") 


logits = fully_connected(hidden2, n_outputs, scope="outputs", 


activation_fn=None) 


an tensorflow.contrib 包 里 包含 了 很 多 有 用 的 函数 ， 不 过 其 中 很 多 代码 
都 是 实验 性 质 的 ， 还 没有 被 正式 收 条 到 TensorFlow 的 API 中 。 
fully_connected () 《以 及 其 他 很 多 contrib 包 中 的 代码 ) BRACE AT BE 


会 变更 。 


我 们 已 经 有 了 神经 网 络 模型 ， 现 在 需要 定义 成 本 函数 用 以 训练 它 。 正 
如 第 4 音 做 的 Softmax 回 归 ， 我 们 这 里 会 使 用 交 义 炉 。 之 前 讨论 过 ， 交 
叉 炳 会 处 谭 那 些 估计 目标 类 的 概率 较 低 的 模型 。TensorFlow 提 供 了 很 多 
函数 来 计算 交叉 炉 ， 我 们 这 里 会 用 
spare_soft_max_cross_entropy_with_logits () : 它 会 根据 “logits” 来 计算 
40 UR 〈 比 如， 在 通过 softmax 激 活 函 数 之 前 网 络 的 输出 ) ， 并 且 期 望 
以 0 到 分 类 个 数 减 1 的 整数 形式 标记 (在 我 们 的 例子 中 是 从 0 到 9) 。 这 
会 计算 出 一 个 包含 每 个 实例 的 交 义 焕 的 一 维 张 量 。 可 以 使 用 TensorFlow 
的 reduce_mean () 芳 数 来 计算 所 有 实例 的 平均 交叉 炉 。 


with tf.name_scope("loss"): 


xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits( 
labels=y, logits=logits) 


loss = tf.reduce_mean(xentropy, name="loss") 


` 函数 sparse_softmax_cross_entropy_with_logits () 与 完 应 用 softmax 
画 数 再 计算 交 义 炉 的 效果 是 一 样 的 ， 不 过 它 更 高 效 一 些 ， 男 外 它 会 处 
理 一 些 边界 值 如 loits 等 于 0 的 情况 。 这 也 是 为 什么 我 们 之 前 没有 使 用 
softmax 激 活 函 数 的 原因 。 此 外 还 有 一 个 
softmax_cross_entropy_with_logits () 函数 ， 它 以 one-hot 的 形式 获取 标 
签 (而 不 是 从 0 到 分 类 数量 减 1) 。 


现在 我 们 有 了 神经 网 络 模型 ， 有 了 成 本 函数 ， 是 时 候 来 定义 一 个 梯度 
下 降 优 化 器 (GradientDescentOptimizer) 了 ， 这 个 优化 器 会 调整 模型 的 
参数 来 使 得 成 本 函数 的 值 最 小 化 。 正 如 我 们 在 第 9 章 做 过 的 ， 没 有 什么 


新 东西 : 


learning_rate = 0.01 


with tf.name_scope("train"): 
optimizer = tf.train.GradientDescentOptimizer(learning_rate) 


training_op = optimizer .minimize(loss) 


构建 期 的 最 后 一 个 重要 步骤 是 指定 如 何 对 模型 求 值 。 我 们 简单 地 将 精 
度 用 作 性 能 指标 。 首先， 对 于 每 个 实例 ， 通 过 检查 最 高 logit 值 是 否 对 应 
于 目标 类 来 确定 神经 网 络 的 预测 是 否 正确 。 这 里 可 以 使 用 in_top k () 
六 数 ， 这 个 函数 会 返回 一 个 一 维 的 张 量 ， 其 值 为 布尔 类 型 ， 因 此 我 们 
需要 将 值 强制 装 换 成 浮 点 型 然后 计算 平均 值 ， 这 会 得 出 网 络 的 总 体 精 


X 


with tf.name_scope("eval"): 
correct = tf.nn.in_top_k(logits, y, 1) 


accuracy = tf.reduce_mean(tf.cast(correct, tf.float32) ) 


与 往常 一 样 ， 我 们 创建 节点 初始 化 变量 ， 创 建 Saver 将 训练 后 的 模型 保 
FF Bl Wa TE 


init = tf.global_variables_initializer() 


saver = tf.train.Saver() 


好 了 ! 构建 期 终于 结束 了 。 一 共 不 到 40 行 代码 ， 不 过 很 清晰 : 我 们 创 
建 了 用 于 输入 和 目标 值 占 位 符 季 上 点， 创建 了 用 以 创建 神经 网 络 的 画 

数 ， 使 用 它 创 建 DNN， 定 义 了 成 本 函数 ， 创 建 了 一 个 优化 器 ， 最 后 还 
定义 了 性 能 度量 。 现 在 我 们 进入 执行 期 。 

执行 阶段 

这 部 分 会 短 很 多 ， 也 人 简单 很 多 。 首 移 ， 加 载 MNIST 数 据 集 。 可 以 像 上 
一 草 一 样 用 Scikit-Learn， 不 过 TensorFlow 提 供 了 自己 的 助手 函数 来 加 载 
数据 ， 缩 放 (从 0 到 1) ， 打 乱 ， 还 提供 了 一 个 徐 单 函数 每 次 加 载 一 个 
小 批 次 。 这 里 用 TensorFlow 提 供 的 函数 : 


from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read_data_sets("/tmp/data/") 


然后 定义 需要 运行 的 epoch 数 量 ， 以 及 小 批 次 大 小 : 


n_epochs = 400 


batch_size = 50 


现在 就 可 以 训练 模型 了 


with tf.Session() as sess: 
init.run() 
for epoch in range(n_epochs): 
for iteration in range(mnist.train.num_examples // batch_size): 
X_batch, y_batch = mnist.train.next_batch(batch_size) 
sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 
acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch}) 
acc_test = accuracy.eval(feed_dict={X: mnist.test.images, 
y: mnist.test.labels}) 


print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test) 


save_path = saver.save(sess, "./my_model_final.ckpt") 


上 面 的 代码 先 打 开 了 一 个 TensorFlow 的 会 话 ， 运 行 初始 化 代码 来 初始 化 
所 有 的 变量 。 运 行 主 训练 循环 ， 在 每 一 个 周期 (epoch) 中 ， 失 代 一 组 
和 训练 集 大 小 相对 应 的 批 次 ， 每 一 个 小 批 次 通过 next_batch O 方法 来 
获得 ， 然 后 执行 训练 操作 ， 将 当前 小 批 次 的 输入 数据 和 目标 传 入 。 接 


下 来 ， 在 每 个 周期 结束 的 时 候 ， 代 码 会 用 上 一 个 小 批 次 以 及 全 量 的 训 
练 集 来 评 信 模 型 ， 并 打印 结 来 。 最 后 ， 将 模型 的 参数 保存 到 便 盘 。 


使 用 神经 网 络 


现在 神经 网 络 已 经 被 训练 好 了 ， 可 以 用 它 来 做 预测 了 。 保 留 构建 器 的 
代码 ， 修 改 执行 期 的 代码 如 下 所 示 : 


with tf.Session() as sess: 
saver.restore(sess, "./my_model_final.ckpt") 
X_new_scaled = [...] # some new images (scaled from © to 1) 
Z = logits.eval(feed_dict={X: X_new_scaled}) 


y_pred = np.argmax(Z, axis=1) 


上 面 的 代码 首先 从 硬盘 上 加 载 模 型 参数 ， 然 后 加 载 需要 被 分 类 的 新 图 
片 。 记 住 应 用 与 训练 数据 相同 的 特征 缩放 (这 里 是 从 0 到 1) 。 然 后 评 
佑 logits 订 点 。 如 果 你 想 知 道 所 有 分 类 的 概率 ， 你 可 以 给 logits 使 用 
softmax () 函数 ， 如 果 你 只 古 想 预测 一 个 分 类 ， 只 需要 选 出 那个 有 最 
大 logit 值 的 即 可 (可 以 使 用 argmax () KRIER) ° 


[1]. 使 用 截断 的 正 态 分 布 而 不 是 单 规 的 正 态 分 布 ， 保 证 这 里 不 存在 任何 
减 慢 训练 的 大 权重 。 


[2]. 例 如 ， 如 果 将 所 有 的 权重 设置 为 0， 然 后 所 有 的 神经 元 输出 为 0， 对 
于 给 定 隐藏 层 的 所 有 神经 元 ， 误 差 梯度 也 是 相同 的 。 然 后 梯度 下 降 步 
又 在 每 一 层 以 相同 的 方式 更 新 所 有 神经 元 的 权重 ， 因 此 它们 将 保持 相 
等 。 换 句 话 说 ， 尽 管 每 层 有 数 百 个 神经 元 ， 但 是 模型 的 每 层 就 好 像 只 
有 一 个 神经 元 一 样 。 


微调 神经 网 络 的 超 参数 


神经 网 络 的 灵活 性 也 恰好 是 它 的 一 个 主要 的 短 板 : 有 太 多 的 超 参 数 需 
要 调整 。 不 仅仅 是 可 以 使 用 任何 的 网 络 拓扑 〈 神 经 元 是 如 何 彼此 连接 
的 ) ， 即 使 是 简单 的 MLP， 也 有 很 多 可 以 调整 的 参数 .你 可 以 修改 层 
数 ， 每 层 的 神经 元 数 ， 每 层 用 的 激活 函数 类 型 初始化 逻辑 的 权重 ， 
等 等 。 怎 么 才能 知道 超 参 数 的 何 种 组 合适 合 你 呢 ? 


当然 ， 正 如 上 一 章 展示 的 ， 你 可 以 使 用 具有 交叉 验证 的 网 格 搜索 来 得 
找 正 确 的 超 参数 。 不 过 有 如 此 多 的 超 参 数 需 要 调整 ， 另 外 ， 在 一 个 大 
的 数据 集 上 训练 神经 网 络 会 很 耗 时 ， 在 有 限 的 时 间 内 ， 你 只 可 能 探索 
很 小 一 部 分 超 参数 。 不 过 用 我 们 在 第 2 章 提 到 的 随机 搜索 法 ( 
https:Wgoo.gUQEjMKu ) 会 好 很 多 。 另 外 一 个 选项 是 使 用 像 Oscar ( 
http://oscar.calldesk.ai/ ) 这 样 的 工具 ， 它 实现 了 更 复杂 的 算法 ， 可 以 帮 
你 更 快 地 找 出 超 参数 集 。 


对 于 缩小 搜索 空间 来 说 ， 了 解 每 个 超 参 数 的 合理 取 值 会 很 有 帮助 。 我 
们 从 隐藏 层 的 个 数 开 始 。 


隐藏 层 的 个 数 


对 很 多 问题 ， 你 可 以 从 单一 的 隐藏 层 开 始 ， 而 且 通 币 可 以 获得 很 好 的 
效 末 。 事 实 上 人 们 发 现 只 要 神经 元 足够 多 ， 仅 有 一 个 隐藏 层 的 MLP 都 
可 以 建 模 大 部 分 复杂 的 函数 。 很 长 一 段 时 间 里 ， 人 研究 者 们 都 认为 无 须 
进一步 研究 更 深 的 神经 网 络 。 不 过 他 们 忽视 了 深层 网 络 比 浅 层 网 络 有 
更 高 的 参数 效率 ， 深层 网 络 可 以 用 非常 少 的 神经 元 来 建 模 复杂 函数 ， 
因此 训练 起 来 更 加 快速 。 


要 理解 为 什么 会 这 样 ， 设 想 你 被 要 求 用 一 个 绘图 软件 画 一 片 森 林 ， 但 
古 不 允许 拷贝 精 贴 。 你 只 能 依次 画 每 一 村 树 ， 每 一 个 枝 干 ， 每 一 片 叶 
Fo MARA LSB A, Aa UME RH, FPS UE 
BERN, BUS FS UGG ER TE RIK, ABR RAKE ia ° 
现实 世界 的 数据 往往 会 按照 层次 结构 组 织 ， 而 DNN 天 生 的 融 很 擅长 处 
理 这 种 数据 ， 低 级 隐藏 层 用 以 建 模 低层 结构 比如， 各 种 形状 和 方向 
的 线段 ) ， 中 级 隐藏 层 组 合 这 些 低层 结构 来 建 模 中 层 结构 (比如 ， 正 
T a ne 
结构 Ean, ARE) 。 


分 层 的 架构 不 但 可 以 帮助 DNN 更 快 地 归纳 出 好 方案 ， 还 可 以 提高 对 于 
新 数据 集 的 泛 化 能 力 。 比 如 ， 你 已 经 训练 出 了 一 个 可 以 识别 人 脸 的 模 


型 ， 现 在 你 想 要 训练 一 个 新 的 模型 来 识别 发 型 ， 你 可 以 完全 重用 第 一 
个 模型 中 的 低层 神经 网 络 。 不 必 随 机 初始 化 新 的 网 络 中 低层 的 权重 和 
偏差 ， 你 可 以 直接 用 第 一 个 网 络 的 低层 神经 网 络 。 这 样 新 网 络 无 须 从 
ees Wee een 
[发 型 。 


总 之 ， 对 于 大 多 数 问 题 来 说 ， 你 都 只 需要 一 个 或 者 两 个 隐藏 层 来 处 理 
(对 于 MINST 数 据 集 ， 一 个 拥有 数 百 个 神经 元 的 隐藏 层 就 可 以 达到 
97% 的 精度 ， 而 用 同样 数量 神经 元 构建 的 两 层 隐 藏 层 束 可 以 获得 超过 
98% 的 精度 ， 而 且 训练 时 间 基 本 相同 ) 。 对 于 更 复杂 的 问题 ， 你 可 以 逐 
渐 增 减 隐藏 层 的 层次 ， 直 到 在 训练 集 上 产生 过 度 拟 合 。 非 常 复杂 的 问 
题 ， 比 如 大 图 片 的 分 类 ， 或 者 语音 识别 ， 通 常 需要 数 十 层 的 隐藏 层 
(甚至 数 百 层 ， 非 全 连接 的 层 ， 我 们 将 在 第 13 章 讨论 ) ， 当 然 它 们 需 
要 超大 的 训练 数据 集 。 不 过 ， 很 少 会 从 头 构建 这 样 的 网 络 : 更 常见 的 
征 重 用 别人 训练 好 的 用 来 处 理 类 似 任 务 的 网 络 。 这 样 训 练 吏 会 快 很 
多 ， 而 且 需 要 的 数据 量 也 会 少 很 多 (我们 会 在 第 11 章 讨论 ) 。 


每 个 隐藏 层 中 的 神经 元 数 


显然 ， 输 入 输出 层 中 的 神经 元 数 由 任务 要 求 的 输入 输出 类 型 决定 。 比 
如 ，MNIST 任 务 需要 28x28=784 个 输入 神经 元 和 10 个 输出 神经 元 。 对 于 
隐藏 层 来 说 ， 一 个 常用 的 实践 是 以 漏斗 型 来 定义 其 尺寸 ， 每 层 的 神经 
元 数 依次 减少 : 原因 是 许多 低级 功能 可 以 合并 成 数量 更 少 的 高 级 功 
能 。 比 如 ， 一 个 典型 的 MINST 的 神经 网 络 有 两 个 隐藏 层 ， 第 一 层 有 300 
个 神经 元 ， 而 第 二 层 有 100 个 神经 元 。 不 过 ， 这 种 实践 现在 也 不 那么 常 
用 了 ， 你 可 以 将 所 有 层次 定义 为 同一 尺寸 ， 每 个 隐藏 层 各 150 个 神经 
元 : 这 只 是 一 个 超 参数 调整 。 与 层次 的 数量 一 样 ， 你 可 以 逐步 添加 神 
经 元 的 数量 ， 直 到 出 现 过 度 拟 合 。 通 党 来 说 ， 通 过 增加 每 层 的 神经 元 
数量 比 增加 层 数 会 产生 更 多 的 消耗 。 不 幸 的 是 ， 正 如 你 所 看 到 的 ， 找 
到 完美 的 神经 元 数量 仍然 是 黑 科 技 。 


一 个 更 简单 的 做 法 是 使 用 ( 比 实际 所 需 ) 更 多 的 层次 和 神经 元 ， 然 后 
提前 结束 训练 来 避免 过 度 拟 合 (以 及 其 他 的 正则 化 技术 ， 特 别 是 
dropout， 我 们 将 在 第 11 章 讨论 ) 。 这 被 称 为 “弹力 裤 ? 方 法 。 出 :无须 花 
ee 


激活 函数 


大 多 数 情 况 下 ， 你 可 以 在 隐藏 层 中 使 用 ReLU 激 活 画 数 (或 者 其 变种 ， 
我 们 会 在 第 11 章 看 到 ) 。 它 比 其 他 激活 函数 要 快 一 些 ， 因 为 梯度 下 降 
对 于 大 输入 值 没 有 上 限 ， 会 导致 它 无 法 终止 〈 与 逻辑 函数 或 者 双 曲 正 
切 画 数 刚 好 相反 ， 它 们 会 在 1 处 饱和 ) 。 


对 于 输出 层 ， softmax 激 活 函 数 对 于 分 类 任务 (如 果 分 类 是 互 斥 的 ) 来 
说 是 一 个 很 不 错 的 选择 。 对 于 回归 任务 ， 完 全 可 以 不 使 用 激活 函数 。 

人 工 神 经 网 络 的 介绍 就 到 此 为 止 了 。 在 接 下 来 的 章节 中 ， 我 们 会 讨论 
如 何 训练 深度 网 络 ， 将 训练 过 程 分 布 到 多 个 服务 器 和 GPU 上 。 我 们 还 
会 探索 一 些 其 他 的 神经 网 络 架 构 ， 卷 积 神经 网 络 、 复 发 神经 网 络 和 自 
动 编码 器 。 |! 


[1] Vincent Vanhoucke 在 Udacitycom 上 的 深度 学 习 课 程 
(https://go0.g1/YSTFqz) ° 


[2] 其 他 更 多 的 ANN 架 构 详 见 附录 E。 
Zi >] 


1. 用 原生 人 造 神 经 元 绘制 一 个 计算 A@B (代表 异 或 操作 ) 的 ANN ( 见 
图 10-3) 。 提 示 : A@B= (An B) ( !'AAB) ° 

2. 为 什么 通常 更 倾向 用 逻辑 回归 分 类 器 而 不 是 经 典 的 感知 器 (比如 ， 使 
用 感知 器 训练 算法 训练 的 单 层 线 性 阐 值 单元 ) ? 如 何 调整 一 个 感知 
at, ILE SV eA Kas Ss ir? 

3. 为 什么 逻辑 激活 函数 是 训练 第 一 个 MLP 的 关键 因素 ? 

4. 说 出 3 种 流行 的 激活 函数 ， 你 能 画 出 它们 的 图 形 吗 ? 

5. 假 设 你 有 一 个 MLP 包 含 : 由 一 个 有 10 个 透 传神 经 元 组 成 的 输入 层 ， 及 
一 个 有 50 个 人 工 神经 元 的 隐藏 层 ， 以 及 一 个 有 3 个 神经 元 的 输出 层 。 所 
有 的 神经 元 都 用 ReLU 激 活 函 数 。 那 么 : 

.输入 矩阵 X 的 形状 是 什么 ? 

.隐藏 层 权 重 向 量 wW ， 偏 移 向 量 b) 的 形状 呢 ? 


-输出 层 权 重 同 量 W ,. MEDd 。 的 形状 呢 ? 
-输出 矩阵 了 的 形状 古 什 么 ? 
` 写 出 计算 网 络 输出 矩阵 Y 对 应 X、Wh、bn、W 。 和 b ,的 方程 式 。 


6. 要 区 分 邮件 是 不 是 垃圾 邮件 ， 输 出 层 需要 多 少 个 神经 元 ? 输出 层 应 该 
选择 哪 种 激活 函数 ? 如 果 要 处 理 MNIST， 输 出 层 又 需要 多 少 个 神经 
元 ? 使 用 哪 种 激活 函数 ? 回答 与 第 2 章 同 样 的 问题 。 让 这 个 网 络 预测 房 


价 。 


eles 它 生 如何 工 作 的 ? 反问 传播 与 肥 式 目 动 微分 有 何 区 
All’ 


8. 你 能 列 出 可 以 被 调整 的 所 有 的 MLP 的 超 参数 吗 ? 如 果 MLP 对 于 数据 集 
过 度 拟 合 了 ， 你 会 如 何 调整 这 些 超 参数 来 解决 ? 


9. 在 MNIST 数 据 集 上 训练 一 个 深度 MLP， 看 看 预测 准确 度 能 不 能 超过 
98%。 就 像 第 9 章 结束 前 的 那个 练习 一 样 ， 党 试 添加 一 些 额 外 的 功能 

(保存 检查 点 ， 中 断后 从 检查 点 恢复 ， 添 加 汇总 ， 用 TensorBoard 绘 制 
学 习 曲 线 等 ) 。 


练习 的 答案 见 附录 A 。 
第 11 章 ”训练 深度 神经 网 络 


在 第 10 章 我 们 介绍 过 人 工 神经 网 络 ， 并 且 训 练 了 第 一 个 深度 神经 网 
络 。 但 其 实 它 是 一 个 很 浅 层 的 DNN， 只 有 两 个 隐藏 层 。 当 你 需要 处 理 
一 个 复杂 问题 时 ， 比 如 要 在 高 分 辨 率 的 图 片 中 检测 数 百 种 形状 的 对 
象 ， 该 怎么 办 呢 ? 你 可 能 需要 训练 一 个 更 深层 的 DNN， 比 如 说 10 层 ， 
每 一 层 都 含有 数 百 个 神经 元 ， 通 过 数 十 万 个 链接 相连 。 这 并 不 是 公园 


- 首 完 ， 你 可 能 会 遇 到 很 诡异 的 梯度 消失 问题 (或 者 相关 的 梯度 爆炸 问 
题 ) ， 它 们 会 影响 深度 神经 网 络 ， 从 而 导致 低层 训练 困难 。 


其次， 对 于 这 么 庞大 的 一 个 网 络 ， 训 练 速度 会 非常 慢 。 


-第 三 ， 一 个 有 数 百 万 参数 的 模型 会 很 容易 出 现 过 度 拟 合 训练 集 的 风 


险 。 


在 本 章 ， 我 们 会 回顾 每 一 个 问题 ， 并 且 介 绍 科学 解决 方法 。 我 们 会 从 
梯度 消失 问题 开始 ， 探 索 这 类 问题 目前 最 流行 的 解决 方案 。 接 着 会 研 
究 一 下 相 较 平坦 梯度 下 降 能 够 在 训练 大 模型 时 做 到 明显 提速 的 各 种 优 
。 最后， 我 们 会 浏 哆 一 下 几 个 流行 的 针对 大 型 神经 网 络 的 正则 化 


有 了 这 些 工具 ， 你 就 能 够 训练 比较 深 的 网 络 ， 欢 迎 来 到 深度 学 习 | 
梯度 消失 /爆炸 问题 


正如 我 们 在 第 10 革 中 讨论 的 ， 反 向 传播 算法 十 从 输出 层 反 疝 作 用 到 输 
入 层 ， 在 过 程 中 传播 误差 梯度 。 一 旦 算法 根据 网 络 的 参数 计算 出 成 本 
号 会 根据 梯度 下 降 步 又 利用 这 些 梯度 来 修正 每 一 个 参 


不 笠 的 是 ， 梯 度 经 常会 随 着 算法 进展 到 更 低层 时 变 得 越 来 越 小 。 导致 
的 结果 是 ， 梯 度 下 降 在 更 低层 网 络 连接 权 值 更 新 方面 基本 没有 改变 ， 
而 且 训 练 不 会 收敛 到 好 的 结果 。 这 称 为 梯度 消失 问题 。 在 一 些 例子 中 
会 发 生 相 反 的 现象 : 梯度 会 越 来 武大 ， 导 致 很 多 层 的 权 值 饮 狂 增 大 ， 
使 得 算法 发 散 。 这 就 是 梯度 爆炸 问题 ， 它 经 常 出 现在 循环 神经 网 络 中 

(参见 第 14 章 ) 。 位 单 来 讲 ， 深 度 神经 网 络 受制 于 不 稳定 梯度 ; 不 同 
层 可 能 会 以 完全 不 同 的 速度 学 习 。 


尽管 证 实 这 个 不 幸 的 表现 经 历 了 相当 长 一 段 时 间 (这 也 是 深度 神经 网 
络 在 很 长 一 段 时 间 内 几乎 被 遗弃 的 原因 之 一 ) ， 直 到 2010 年 左右 在 梯 
度 消失 问题 的 研究 方面 才 有 了 重大 的 突破 。Xavier Glorot 和 Yoshua 
Bengio -£ W “Understanding the Difficulty of Training Deep 
Feedforward Neural Networks” (_http://go0.gl/irhAef ) 中 提 到 几 个 假 
设 ， 包 括 流 行 的 逻辑 S 激 活 函 数 和 当时 最 流行 的 权重 初始 化 技术 的 混 
合 ， 即 用 均值 为 0、 方 差 为 1 的 正 态 分 布 进行 随机 初始 化 。 简 而 言 之 ， 
利用 这 种 激活 函数 和 初始 化 方式 ， 他 们 发 现 每 一 层 和 输出 方差 都 比 输入 
方才 大 很 多 。 在 这 个 网 络 里 ， 每 层 都 会 出 现 方差 增加 ， 直 到 激活 函数 
最 高 层 饱和 。 如 采 逻 辑 函 数 的 均值 变 成 0.5， 这 个 现象 就 会 变 得 比较 粳 
(的 值 为 (的 双 曲 正切 画 数 比 过 错 夯 数 在 深层 网 络 中 表现 会 稍 好 一 


观察 逻辑 激活 函数 〈 见 图 11-1) ， 你 会 发 现 当 输入 变 大 〈 正 或 负 ) , K 
数 在 0 或 1 饱和 ， 导 数 无 限 靠 近 0。 也 就 古 当 反 辣 传播 起 作用 时 ， 实 际 上 
并 没有 梯度 通过 网 络 反 向 作用 ， 同 时 在 反 向 传播 到 顶层 的 过 程 中 几乎 
没有 梯度 被 稀释 ， 所 以 基本 上 没有 给 低层 留 下 什么 。 


S 激活 函数 
Lid 
E EOE MOE MOPE. OR OO 
0.8 Í 
BAH 
0.6 | 


A 0 2 4 


图 11-1: 逻辑 激活 函数 饱和 
Xavier 初 始 化 和 He 初始 化 


在 Glorot 和 Bengio 的 论文 中 针对 这 个 问题 提出 了 一 个 很 有 殖 的 缓和 办 
法 。 我 们 需要 让 信和 号 在 两 个 方向 都 正确 流动 : 当 预 测 的 时 候 要 保持 正 
向 ， 在 反 辐 传播 梯度 时 保持 反方 向 。 我 们 并 不 希望 信号 消亡 ， 同 样 也 
不 希望 它们 爆炸 或 者 稀释 。 为 了 让 信号 正确 流动 ， 作 者 提出 需要 保持 
每 一 层 的 输入 和 输出 的 方差 一 致 ， 区 -并 且 需 要 在 反 向 流动 过 某 一 层 
时 ， 前 后 的 方差 也 要 一 臻 《如果 你 对 数学 细节 感 兴趣 可 以 查阅 论 

X) 。 事 实 上 ， 这 是 很 难保 证 的 ， 除 非 一 层 有 相同 数量 的 输入 和 输出 
连接 ， 当 然 他 们 也 提出 了 一 种 很 好 的 折 中 方案 : 连接 权重 必须 按照 公 


式 11-1 进 行 随机 初始 化 ， 其 中 ninpus 和 n outputs 是 权重 被 初始 化 层 的 输入 
和 输出 连接 数 CPR A AA) 。 这 种 初始 化 的 方法 称 为 Xavier 初 
at, (以 作者 的 名 字 命 名 ) ， 有 时 也 称 为 Glorot 初 始 化 。 


公式 11-1: Xavier 初 始 化 ( 当 使 用 逻辑 激活 函数 时 ) 


r} 


均值 为 Oo 和 标准 差 和 "ww + Mos 的 正 态 分 布 ， 或 者 一 个 在 -r 和 +r 之 
| 6 


间 的 标准 分 布 ， 其 中 和 Pom + Ma 

当 输入 连接 数 和 输出 连接 数 六 体 一 致 时 ， 你 可 以 得 到 一 个 和 肖 单 的 等 式 
本 六 ei ee 

(比如 : inputs 或 者 Ps ) 。 我 们 在 第 

10% 中 用 过 这 个 简易 方法 。 


利用 Xavier 初 始 化 方法 可 以 显著 提高 训练 速度 ， 它 是 众多 带领 深度 学 习 
取得 现 如 今 成 功 的 方法 之 一 。 近 期 的 一 些 论 文 由- 为 不 同 的 激活 函数 提 
供 了 类 似 的 方法 ， 见 表 11-1。ReLU 激 活 函 数 的 初始 化 方法 (AKER 
包括 简称 的 ELU 激 活 ) 有 时 称 为 He 初始 化 〈 以 作者 的 姓氏 命 


表 11-1: 每 种 激活 函数 的 初始 化 参数 


Wawa BUA -r,r ESDA 


3 S ga ~n 
\ inputs + P uputs \ M inputs + MY sutputs 

ing | 6 | 2 
NALS be fp — TI em 
\ inputs + P upute \ M inputs t P outputs 

亦 | | ) 
ReLU (及 变种 el ea 
\ Ww i P uputs \ M inputs F M ouput 


fully_connected () 函数 〈 第 10 章 已 介绍 ) 默认 用 Xavier 初 始 化 (用 均 
匀 分 布 ) 。 你 可 以 用 下 面 的 方法 通过 使 用 variance_scaling_initializer 
() 画 数 将 其 变 成 He 函数 : 


he_init = tf.contrib.layers.variance_scaling_initializer() 


hidden1 = fully_connected(X, n_hiddeni, weights_initializer=he_init, scope="h1i") 


` Hef ALR SRT BA, WAR Xavier) 4A. — FEB A Fl og HY 
EEE ° Xt variance scaling initializer () KA ERUEN, (E 
是 可 以 通过 修改 参数 mode="FAN_AVG" 来 调整 。 


非 饱 和 油 活 范 数 


Glorot 和 Bengio 在 2010 年 的 论文 中 提 到 一 个 观点 ， 梯 度 消失 /爆炸 问题 一 
部 分 的 原因 是 选 错 了 激活 函数 。 在 那 之 前 很 多 人 一 直 有 这 样 的 假设 : 

如 采 大 目 然 在 生物 神经 元 里 都 使 用 了 S 激 活 画 数 ， 那 么 这 个 函数 一 定 是 
一 个 绝 佳 的 选择 。 但 结果 却 表明 其 他 的 激活 函数 在 深度 神经 网 络 中 表 
现 得 更 好 一 些 ， 特 别 是 在 ReLU 油 活 函 数 中 ， 出 现 这 种 结果 最 主要 的 原 
因 是 它 并 不 稀释 正 值 (同时 也 因为 计算 速度 很 快 ) 。 


然而 ，ReLU 激 活 函 数 并 不 是 完美 的 。 它 会 出 现 dying ReLU 问 题 : 在 训 
练 过 程 中 ， 一 些 神经 元 实际 上 已 经 死 了 ， 即 它们 只 输出 0。 在 一 些 案例 
中 ， 你 可 能 会 发 现 你 的 网 络 中 有 一 半 神 经 元 都 死 了 ， 特 别 是 当 你 用 了 
一 个 比较 大 的 训练 速度 时 。 在 训练 过 程 中 ， 如 果 神 经 元 的 权重 更 新 到 
神经 元 输入 的 总 权重 是 负 值 时 ， 这 个 神经 元 就 会 开始 输出 0。 当 这 种 情 
况 发 生 时 ， 除 非 ReLu 芳 数 的 梯度 为 0 并 且 输 入 为 负 ， 否 则 这 个 神经 元 就 
不 会 再 重新 开始 工作 。 


要 解决 这 个 问题 ， 你 可 能 需要 使 用 ReLU 函 数 的 变种 ， 比 如 leaky ReLU 
( 带 泄漏 线性 整流 函数 ) 。 这 个 函数 定义 为 : LeakyReLU, (z) =max 
(az, z) ( 见 图 11-2) 。 超 参数 a 表示 函数 “泄漏 "程度 ， 它 是 函数 中 

z<0 时 的 坡度 ， 一 般 会 设置 为 0.01。 这 个 小 坡度 可 以 保证 leaky ReLU 不 
会 死 ; 它 可 以 进入 一 个 很 长 的 昏迷 期 ， 但 最 后 还 是 有 机 会 醒 过 来 。 一 

篇 近期 的 论文 (https:W/goo.gVB1lxhKn ) 加 中 对 比 了 几 个 ReLU 激 活 画 
数 的 变种 ， 其 中 一 个 结论 就 是 带 泄漏 变种 总 是 优 于 严格 的 ReLU 激 活 画 
数 。 实 际 上 ， 设 置 a=0.2 (大 泄漏 ;得 到 的 结果 会 比 q=0.01 (小 泄漏 ) 
好 。 同 时 ， 论 文中 也 评估 了 RReLU ( 带 泄 漏 随 机 ReLU) ， 即 在 训练 过 
程 中 a 是 在 给 定 区 间 里 的 一 个 随机 值 ， 在 测试 过 程 中 国定 在 一 个 平均 
值 。 它 的 表现 也 很 不 错 ， 可 以 作为 一 个 正则 (降低 了 训练 集 过 度 拟 合 
的 风险 ) 。 最 后 ， 他 们 还 评估 了 PReLU (参数 线性 整流 ) ， 其 中 a 在 训 
练 中 可 以 进行 学 习 MEARE, MEERA ANE THE 
ZO 。 这 个 函数 在 大 的 图 片 数据 集 的 情况 下 会 比 ReLU 效 果 更 好 ， 但 是 
在 小 的 数据 集 时 会 有 训练 集 过 度 拟 合 的 风险 。 


PERA ER LAY a RA 


图 11-2: Leaky ReLU ( 带 泄 漏 线 性 整流 函数 ) 


最 后 ， 在 Djork-AméClevert 等 人 [18-2015 年 发 表 的 一 篇 论文 ( 
http://goo.g/Sd12P7 ) 中 提出 了 一 个 新 的 激活 函数 ， 称 为 ELU (加 速 线 
性 单元 ， 在 他 们 的 测试 中 ， 它 的 表现 优 于 ReLU 的 所 有 变种 : 训练 时 
间 减 小 ， 神 经 网 络 在 测试 集 的 表现 也 更 好 。 图 11-3 和 公式 11-2 给 出 了 这 
个 函数 的 定义 。 


公式 11-2: ELU 激 活 函 数 


a(exp(z) -1) (z <0) 


ELU (2) = (30) 


ELU 激活 函数 (a=1) 


-4 =2 0 2 4 


图 11-3: ELU 激 活 函 数 
ELU 激 活 函 数 和 ReLU 了 函数 很 像 ， 只 是 有 几 个 明显 的 不 同 : 


` 当 z<0 时 它 的 值 为 负 ， 从 而 允许 单元 的 平均 输出 接近 0。 这 样 束 可 以 如 
之 前 讨论 的 一 样 ， 缓 和 梯度 消失 问题 。 超 参数 o 是 指 当 z 是 一 个 极 大 的 

人 负数 时 ，ELU 画 数 接近 的 那个 值 。 通 常 被 设置 为 1， 当 然 如 果 你 需要 也 
可 以 改变 它 ， 与 其 他 超 参数 的 操作 是 一 样 的 。 


:第 二 ， 对 于 z<0 有 一 个 非 零 的 梯度 ， 这 样 束 可 以 避免 单元 消失 的 问题 。 


:第 三 ， 这 个 函数 整体 很 平 消 ， 包 括 在 z=0 附 近 ， 这 样 束 可 以 提高 梯度 下 
降 ， 因 为 在 z=0 的 左右 两 边 都 没有 拌 动 。 

ELU 激 活 函 数 的 一 个 主要 缺陷 是 计算 速度 比 ReLU 和 它 的 变种 慢 (因为 
使 用 了 指数 函数 ) ， 但 是 在 训练 过 程 中 ， 可 以 通过 更 快 的 收敛 速度 来 
弥补 。 然 而 ， 测 试 中 ，ELU 网 络 时 间 慢 于 ReLU 网 络 。 


~ 那么 在 你 的 深度 神 经 网 络 的 隐藏 层 到 底 应 该 使 用 哪 一 种 激活 函数 
WE? 尽管 你 的 里 程 会 不 一 样 ， 通 党 来 说 ELU 国 数 >leaky ReLUK Š (和 
它 的 变种 ) >ReLU 函 数 >tanh 函 数 > 逻 辑 画 数 。 如 果 你 更 关心 运行 时 的 性 
能 ， 那 你 可 以 选择 leaky ReLU 了 函数 ， 而 不 是 ELU 函 数 。 如 果 你 不 想 改变 
别 的 超 参数 ， 就 只 使 用 建议 a 的 默认 值 (leaky ReLU 函 数 是 0.01，ELU 
函数 是 1) 。 如 果 你 有 多 余 的 时 间 和 计算 能 力 ， 你 可 以 使 用 交叉 验证 去 
评估 别 的 激活 函数 ， 特 别 是 如 果 你 的 网 络 过 度 拟 合 ， 你 可 以 使 用 
RReLU 了 芳 数 ， 叉 或 者 是 针对 大 的 训练 集 使 用 PReLU 了 函数。 


TensorFlow 给 你 提供 了 一 个 elu () 函数 来 构建 神经 网 络 ， 当 调用 
fully_connected () 函数 时 ， 可 以 很 简单 地 设置 activation_fn 参 数 : 


hidden1 = fully_connected(X, n_hiddeni, activation_fn=tf.nn.elu) 


TensorFlow 没 有 leaky ReLU KZA EN KZ, (Ae te ay AIRT Ae 
SON: 
def leaky_relu(z, name=None): 


return tf.maximum(®.01 * z, z, name=name) 


hidden1 = fully_connected(X, n_hiddeni, activation_fn=leaky_relu) 


批量 归 一 化 


尽管 使 用 了 He 初始 化 加 ELU (或 者 ReLU 的 任 一 种 变种 ) 可 以 很 明显 地 
在 训练 初期 降低 梯度 消失 /爆炸 问题 ， 但 还 是 不 能 保证 在 训练 过 程 中 不 
会 再 出 现 这 些 问 题 。 


在 一 篇 发 表 于 2015 的 论文 (https:/goo.gUgA4GSP ) Lh, Sergey Ioffe 
和 Christian Szegedy 提 出 了 一 个 叫 作 批量 归 一 化 (BN) WRR, HER 


解决 梯度 消失 /爆炸 问题 ， 而 且 每 一 层 的 输入 分 散 问 题 在 训练 过 程 中 更 
Wik, ARRAS 〈 称 为 内 部 协 变量 转变 问题 ) 也 是 一 样 。 


该 撤 术 包 括 在 每 一 层 激活 函数 之 前 在 模型 里 加 一 个 操作 ， 简 单 零 中 心 
化 和 归 一 化 输入 ， 之 后 再 通过 每 层 的 两 个 新 参数 (一 个 为 了 缩放 ， 男 
一 个 为 了 移动 ) 缩放 和 移动 结 末 。 换 名 话说 ， 这 个 操作 让 模型 学 会 了 
最 住 规模 和 每 层 输入 的 平均 值 。 

为 了 零 中 心 化 和 归 一 化 输入 ， 算 法 需要 评估 输入 的 平均 值 和 标准 方 
a TET Mis (因此 得 名 “批量 归 一 化 ”是 通过 评估 输入 的 平 
均值 和 标准 方差 来 这 么 做 的 。 整 个 操作 见 公式 11-3。 


公式 11-3: 批量 归 一 化 算法 


2 ] i 2 
2. Og = (x — Hg) 


4.7 = yx” + B 


-HB 是 经 验 平 均值 ， 评 估 整 个 小 批量 B。 


GOB 是 经 难 标 准 方差 ， 评 估 整 个 小 批量 。 
-ms 是 小 批量 的 实例 数 。 


RO 零 中 心 化 和 归 一 化 输入 。 


-是 层 移动 MWE) 参数 。 


是 一个 小 的 数字 为 了 避免 除 以 0 〈 标 准 化 103) 。 它 被 称 为 平滑 
项 。 


z Ü 是 BN 操作 的 输出 ， 它 是 输入 的 缩放 和 移动 版 。 


在 测试 期 间 ， 没 有 小 批量 数据 来 计算 经 验 平 均值 和 标准 方差 ， 所 以 你 

可 简单 地 用 整个 训练 集 的 平均 值 和 标准 方差 来 代替 。 在 训练 过 程 中 可 

以 用 变动 平均 值 有 效 地 计算 出 来 。 所以， 整体 来 看 ，4 个 参数 是 为 每 一 

WE aaa y (缩放 ) ，B (mE), p CFE) Mo 
FRY | 7T. 7 


作者 提出 的 这 个 技术 考虑 了 他 们 实验 过 的 所 有 深度 神经 网 络 。 梯 度 消 
失 问 题 被 有 效 改 善 ， 主 要 原因 是 他 们 使 用 了 饱和 激活 函数 (比如 tanh) 
和 逻辑 激活 函数 。 网 络 对 于 权重 初始 化 也 没有 那么 人 敏感。 它们 可 以 使 
用 更 高 的 学 习 速 率 ， 从 而 有 效 地 加 快 整个 学 习 过 程 。 值 得 指出 的 是 ， 
他 们 提 到 “在 应 用 到 一 个 先进 图 片 识别 的 模型 时 ， 批 量 归 一 化 达到 了 相 
同 的 精度 ， 同 时 还 将 训练 步 又 减少 为 原来 的 V14， 以 显著 的 成 绩 击败 了 
原始 模型 。[...] 利 用 组 合 的 批量 归 一 化 网 络 ， 我 们 在 ImageNet 上 目前 已 
经 发 表 过 的 最 佳 结 来 的 基础 上 又 做 了 改进 ， 达 到 了 4.9%top-5 的 验证 销 
误 (4.8% 的 测 斌 错误) ， 超 过 了 人 类 评估 者 的 精度 。” 最 终 ， 像 一 个 在 
持续 给 予 的 福利 一 样 ， 批 量 归 一 化 同时 还 可 以 进行 正则 化 ， 降 低 其 他 
正则 化 技术 的 需求 (比如 退出 ， 本 章 后 面 会 提 到 |) 


但 是 ， 批 量 归 一 化 的 确 也 给 模型 增加 了 一 些 复 杂 度 《尽管 因为 有 第 一 
隐藏 层 而 不 用 考虑 归 一 化 输入 数据 的 需求 ， 但 是 提供 这 个 需求 的 却 是 
批量 归 一 化 ) 。 另 外 ， 还 存在 一 个 运行 时 的 代价 ; 神经 网 络 的 预测 速 
度 变 慢 ， 原 因 是 每 一 层 有 很 多 其 他 需要 进行 的 计算 。 所 以 如 果 你 需要 


快速 预测 ， 你 可 能 需要 在 进行 批量 归 一 化 之 前 先 检查 一 下 ELU+He 初 始 
化 的 表现 如 何 。 


` RRRM—A RAAE RTE BE RREN m ET, VI 
练 速度 会 非常 慢 ， 但 是 一 旦 找到 一 个 合适 的 值 ， 训 练 速度 束 会 迅速 提 


用 TensorFlow 来 实现 批量 归 一 化 


TensorFlow 提 供 了 一 个 batch_normalization () 范 数 来 中 心 化 和 归 一 化 
输入 ,但 是 你 必须 自己 计算 均值 和 标准 方差 (在 训练 中 基于 一 个 小 批 
量 的 数据 或 者 就 像 刚才 讨论 的 用 整个 数据 集 进行 测试 ) ， 然 后 把 它们 
作为 参数 传 给 这 个 方法 ， 而 且 你 必须 自己 确定 缩放 和 偏 移 参 数 (并 把 
它们 传 给 这 个 方法 ) 。 这 是 可 行 的， 但 并 不 一 定 是 最 易 行 的 方式 。 不 
过 ， 你 可 以 用 batch_norm () 函数 ， 它 提供 了 所 有 的 参数 。 你 可 以 直接 
调用 ， 或 者 告诉 fully_connected () 函数 去 调用 它 ， 如 以 下 代码 所 示 : 


import tensorflow as tf 


from tensorflow.contrib.layers import batch_norm 


n_inputs = 28 * 28 


n_hiddeni = 300 


n_hidden2 = 100 


n_outputs = 10 


X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 


is_training = tf.placeholder(tf.bool, shape=(), name='is_training') 
bn_params = { 

‘is_training': is_training, 

"decay': 0.99, 


"updates_collections': None 


hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 
hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 
logits = fully_connected(hidden2, n_outputs, activation_fn=None, scope="outputs", 
normalizer_fn=batch_norm, normalizer_params=bn_params) 
— ia — FB EWI e TARE, RREN T is_training Fiz 
符 ， 无 所 谓 是 True 还 是 False。 它 负责 告诉 batch_norm O 函数 是 使 用 当 
前 小 批量 的 均值 和 标准 方差 (训练 中 ) ， 还 是 使 用 运行 平均 值 (测试 
ey. © 
接着 定义 了 bn_params， 它 是 会 传 给 batch_norm () 函数 的 参数 集合 ， 
当然 也 包括 is_training。 算 法 用 到 了 指数 惨 减 来 计算 运行 平均 值 ， 这 也 
是 需要 衰变 参数 的 原因 。 给 一 个 新 值 Yv， 运 行 平均 值 会 通过 公式 
\U<— VT A decay Te 汶 ( | m decay ) EEZ o — payee 


变 值 会 非常 接近 1， 比 如 0.9、0.99、0.999 (对 越 大 的 数据 集 和 越 小 的 批 
量 ， 需 要 的 9 越 多 ) 。 最 后 ， 如 果 你 希望 batch_norm () 画 数 在 训练 中 
( 即 当 is_training=True 时 ) 一 结束 批量 归 一 化 就 更 新 运行 平均 值 ， 就 需 
要 将 updates_collections 设 置 成 None。 如 果 你 不 设置 这 些 参数 ， 在 默认 
情况 下 ，TensorFlow 只 将 更 新 运行 平均 值 的 操作 添加 到 必须 运行 的 操作 


集合 中 。 


最 后 ， 我 们 用 第 10 章 中 提 过 的 方法 ， 通 过 调用 fully_connected () 函数 
来 创建 层 ， 但 是 这 一 次 我 们 在 调用 激活 函数 前 通过 调用 batch_norm () 
函数 (通过 参数 nb_params) 来 进行 输入 归 一 化 。 


注意 默认 情况 下 ，batch_norm O 只 中 心 化 、 归 一 化 和 对 输入 进行 偏 移 
操作 ， 但 是 并 不 缩放 〈 即 y 固 定 为 1) 。 这 样 对 没有 激活 函数 或 者 用 
ReLU 激 活 范 数 的 层 是 有 效果 的 ， 但 是 对 于 其 他 的 激活 函数 ， 你 需要 设 
置 "scale"， 即 将 bn_params 设 置 为 True。 


你 可 能 已 经 注意 到 ， 定 义 前 三 层 是 重复 的 ， 因 为 有 几 个 参数 是 相同 
的 。 为 了 避免 一 直 重 复 同 样 的 参数 ， 你 可 以 用 arg_scope O 方法 构造 
一 个 参数 范围 : 第 一 个 参数 是 一 个 函数 列表 ， 其 他 参数 会 目 动 传 给 这 
些 函 数 。 最 后 三 行 预测 代码 可 以 修改 成 : 


with tf.contrib.framework.arg_scope( 


[fully_connected], 


normalizer_fn=batch_norm, 


normalizer_params=bn_params): 


hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni" ) 


hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") 


logits = fully_connected(hidden2, n_outputs, scope="outputs", 


activation_fn=None) 


在 这 种 小 例子 中 ， 它 的 表现 可 能 没有 以 前 好 ， 但 是 如 条 你 有 10 层 并 且 
BE A ` IWE ` SE, MARRE R ENAKAN 


构造 阶段 剩 下 的 部 分 和 第 10 章 中 一 致 : 定义 成 本 函数 ， 构 建 优化 器 ， 
让 它 最 小 化 成 本 函数 ;定义 评估 操作 ; 创建 Saver， 等 等 。 
实施 过 程 基本 一 致 ， 只 有 一 处 不 同 。 无 论 何 时 你 运行 一 个 依赖 于 
batch_norm 层 的 操作 ， 你 都 需要 设置 is_training 占 位 符 为 True 或 者 


False: 


with tf.Session() as sess: 


sess.run(init) 


for epoch in range(n_epochs): 


for X_batch, y_batch in zip(X_batches, y_batches): 


sess.run(training_op, 


feed_dict={is_training: True, X: X_batch, y: y_batch}) 


accuracy_score = accuracy.eval( 


feed_dict={is_training: False, X: X_test_scaled, y: y_test})) 


print(accuracy_score) 


就 是 这 样 ! 在 这 个 小 例子 中 只 有 两 层 ， 不 像 批 量 归 一 化 有 那么 显著 的 
有 影响， 但 是 对 于 深层 网 络 会 有 非常 明显 的 效果 。 


TEBI ER 


一 个 流行 的 减轻 梯度 爆炸 问题 的 技术 是 在 反 向 传播 的 过 程 中 简单 地 裁 
前 梯度 ， 从 而 保证 不 会 超过 阔 值 (这 个 对 于 循环 神经 网 络 非常 有 效 ， 

详 见 第 14 章 ) 。 这 种 技术 叫 作 梯度 剪裁 (http:/goo.gUdRDAaf ) [8 一 
ED a ee 
Afr Ee 


在 TensorFlow 里 ， 优 化 器 的 minimize O KAERT Bt vt A hy A 
度 ， 所 以 你 必须 先 调 用 优化 器 的 compute_gradients () 方法 ， 然 后 调用 
clip_by_value () 方法 创建 一 个 剪裁 梯度 的 操作 ， 最 后 再 调用 
apply_gradients () 方法 来 应 用 裁剪 后 的 梯度 : 


threshold = 1.0 

optimizer = tf.train.GradientDescentOptimizer(learning_rate) 

grads_and_vars = optimizer.compute_gradients(loss) 

capped_gvs = [(tf.clip_by_value(grad, -threshold, threshold), var) 
for grad, var in grads_and_vars] 


training_op = optimizer.apply_gradients(capped_gvs) 


一 般 情 况 下 ， 你 需要 在 每 一 个 训练 步骤 中 都 跑 一 次 training_ op。 它 会 计 
算 梯 度 ， 在 -1.0 和 1.0 之 间 剪 裁 ， 然 后 应 用 。 靖 值 是 可 以 调整 的 超 参 数 。 


[1|_“Understanding the Difficulty of Training Deep Feedforward Neural 
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你 的 声 首 也 会 饱和 ， 大 家 也 听 不 清 你 在 说 什么 。 现 在 想象 有 一 连 串 这 
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重用 预 训 练 图 层 


从 头 开 始 训练 一 个 非常 庞大 的 DNN 并 不 明智 。 大 多 时 候 你 应 该 试 着 去 
找 一 个 能 处 理 相似 问题 的 已 有 的 神经 网 络 ， 然 后 重用 它 的 低层 网 络 ， 
ae 。 这 不 仅 能 极 大 地 提升 训练 速度 ， 也 很 大 程度 地 减少 
训练 数据 。 


举例 来 说 ， 假 设 你 已 经 有 了 一 个 训练 好 的 DNN 用 来 将 图 片 分 成 100 个 类 
别 ， 包 括 动物 、 植 物 、 和 车辆 和 各 种 各 样 更 多 的 类 别 。 如 采 你 需要 训练 
一 个 DNN 使 之 能 够 根据 不 同 的 交通 工具 来 分 类 ， 因 为 训练 任务 和 已 有 
的 那个 十 分 类 似 ， 所 以 你 应 该 试 着 重用 已 有 的 部 分 网 络 ( 见 图 11-4) 


月 
i 可 训练 权重 


A 本 


输入 层 
任务 A 的 现 有 DNN 相似 任务 B 的 新 DNN 


图 11-4: 重用 预 训 练 图 层 


` 如 采 新 任务 的 输入 图 片 和 已 有 任务 的 输入 图 片 太 十 不一致， 你 就 需 
要 添加 一 个 预 处 理 过 程 来 使 图 片 尺 寸 满 足 已 有 任务 的 输入 需求 。 一 上 般 
0 迁移 学 习 只 适用 于 新 旧 任 务 的 输入 有 着 相似 的 低层 特征 的 情 
Ui 


重用 TensorFlow 模 型 


如 采 原 有 模型 是 用 TensorFlow 训 练 的 ， 你 可 以 轻松 地 还 原 该 模型 并 在 新 
任务 中 接着 训练 它 : 


[...] # construct the original model 


with tf.Session() as sess: 
saver.restore(sess, "./my_original_model.ckpt") 
[...] # Train it on your new task 
然而 ， 通 党 我 们 只 想 要 重用 原 有 模型 的 一 部 分 (我 们 马上 就 会 讨论 这 
种 状况 ) ， 一 种 简单 的 解决 方案 就 是 配置 Saver 使 之 在 还 原 原 模型 时 只 


还 原 所 有 参数 的 一 个 子 集 。 举 例 来 疯 ， 下 面 的 代码 吏 只 还 原 了 隐 闫 层 
1、 隐 藏 层 2 和 隐藏 层 3: 


[...] # build new model with the same definition as before for hidden layers 1-3 


init = tf.global_variables_initializer() 


reuse_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, 


scope="hidden[123]") 


reuse_vars_dict = dict([(var.name, var.name) for var in reuse_vars]) 


original_saver = tf.Saver(reuse_vars_dict) # saver to restore the original model 


new_saver = tf.Saver() # saver to save the new model 


with tf.Session() as sess: 


sess.run(init) 


original_saver.restore("./my_original_model.ckpt") # restore layers 1 to 3 


[...] # train the new model 


new_saver.save("./my_new_model.ckpt") # save the whole model 


首先 我 们 建立 了 新 模型 ， 确 保 它 复制 了 原 有 模型 的 隐藏 层 1 到 隐藏 层 
3。 我 们 同时 创建 了 一 个 节点 来 初始 化 所 有 人 参数。 之 后 我 们 获取 到 一 个 
用 "trainable=true" 配 置 (默认 配置 ) 创建 的 参数 列表 ， 并 用 正则 表达 
式 "hidden[123]" 来 做 筛选 (BU: 最 后 得 到 的 就 是 隐藏 层 1 到 隐藏 层 3 的 所 
有 可 训练 参数 ) 。 之 后 我 们 创建 了 一 个 字典 来 存放 每 个 参数 在 原 有 模 
型 和 新 模型 里 的 名 字 上 映射 (通常 我 们 会 保持 原名 不 变 ) 。 接 下 来 创建 
一 个 Saver 用 来 还 原 那 些 参数 ， 创 建 另 一 个 Saver 来 存储 整个 新 模型 ， 而 
不 是 只 有 层 1 到 层 3。 之 后 开启 一 个 会 话 ， 并 初始 化 新 模型 的 所 有 参 

数 ， 然 后 将 层 1 到 层 3 的 参数 从 已 有 模型 中 重建 。 最 后 ， 在 新 任务 中 训 
练 新 模型 并 存储 它 。 


RW (ERK, 我 们 就 可 以 重用 越 多 的 层 (从 低层 开始 ; 。 对 于 特别 
相似 的 任务 ， 我 们 可 以 试 着 将 所 有 隐 着 层 都 保留 ， 只 巷 换 外 层 。 


重用 其 他 框架 的 模型 


如 果 已 有 模型 是 用 其 他 框架 训练 出 来 的 ， 我 们 就 需要 手动 加 载 所 有 的 
权重 〈 例 如 如 果 用 Theano 训 练 的 话 ， 就 用 Theano 代 码 加 载 ) ， 然 后 将 
它们 赋 给 适当 的 参数 。 这 个 过 程 会 变 得 相当 宛 长 乏味 。 举 例 来 说 ， 下 
面 的 代码 展示 了 如 何 从 其 他 框架 训练 出 的 模型 来 复制 其 第 一 个 隐 闫 层 
的 权重 和 偏 移 量 。 


original w = [...] # Load the weights from the other framework 


original b = [...] # Load the biases from the other framework 


X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") 


hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni") 


[...] # # Build the rest of the model 


# Get a handle on the variables created by fully_connected() 


with tf.variable_scope("", default_name="", reuse=True): # root scope 


hiddeni_weights = tf.get_variable("hiddeni/weights" ) 


hiddeni_biases = tf.get_variable("hiddeni/biases" ) 


# Create nodes to assign arbitrary values to the weights and biases 


original_weights = tf.placeholder(tf.float32, shape=(n_inputs, n_hidden1) ) 


original_biases = tf.placeholder(tf.float32, shape=(n_hidden1) ) 


assign_hiddeni_weights = tf.assign(hiddeni_weights, original_weights) 


assign_hiddeni_biases = tf.assign(hiddeni_biases, original_biases) 


init = tf.global_variables_initializer() 


with tf.Session() as sess: 
sess.run(init) 
sess.run(assign_hiddeni_weights, feed_dict={original_weights: original_w}) 
sess.run(assign_hiddeni_biases, feed_dict={original_biases: original_b}) 


[...] # Train the model on your new task 


冻结 低层 


第 一 个 DNN 的 低层 可 能 已 经 学 会 了 检测 图 像 中 的 低级 特征 ， 这 对 于 两 
个 图 像 分 类 任务 都 是 有 用 的 ， 因 此 你 可 以 直接 重用 这 些 图 层 。 训 练 新 
的 DNN 时 ， 通 芝 来 讲 “ 诛 结 ?权重 是 一 个 比较 好 的 方法 : 如 采 低 层 权 重 
被 固定 ， 那 么 高 层 的 权重 就 比较 容易 训练 (因为 不 需要 学 习 一 个 运动 
的 目标 ) 。 为 了 在 训练 中 冻结 低层 ， 最 简单 的 办 法 束 是 给 优化 右 列 出 
要 训练 的 变量 列表 ， 除 去 低层 的 变量 : 


train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, 


scope="hidden[34]|outputs") 


training_op = optimizer.minimize(loss, var_list=train_vars) 


第 一 行 是 获得 所 有 在 隐藏 层 3 和 隐藏 层 4 及 输出 层 的 可 训练 要 量 。 排 除 
了 在 隐藏 层 1 和 隐藏 层 2 的 变量 。 下 一 步 我 们 把 这 个 可 训练 变量 的 受 限 
列表 传 给 优化 器 的 minimize O 函数 。 层 1 和 层 2 现 在 被 冻结 了 : 它们 在 
训练 过 程 中 不 会 抖动 CERRO AMEE) 。 


缓存 冻结 层 


因为 冻结 层 不 会 变化 ， 所 以 就 有 可 能 将 每 一 个 训练 实例 的 最 高 冻结 层 
的 输出 缓存 起 来 。 由 于 训练 会 轮 询 整 个 数据 集 很 多 次 ， 所 以 你 将 获得 


巨大 的 速度 提升 ， 因 为 你 只 需要 在 一 个 训练 实例 中 遍历 一 次 冻结 层 
(而 不 是 每 个 全 数据 集 一 次 ) 。 举 个 例子 ， 你 可 以 第 一 次 在 低层 跑 完 
整个 训练 集 (假设 你 有 足够 的 RAM) 


hidden2_outputs = sess.run(hidden2, feed dict={X: X_train}) 


然后 在 训练 中 ， 你 要 做 的 不 是 构建 批量 的 训练 实例 ， 而 是 批量 构建 隐 
藏 层 2 的 输出 ， 并 且 将 它们 喂 给 训练 操作 : 


import numpy as np 


n_epochs = 100 


n_batches = 500 


for epoch in range(n_epochs): 
shuffled_idx = rnd.permutation(len(hidden2_outputs) ) 
hidden2_batches = np.array_split(hidden2_outputs[shuffled_idx], n_batches) 
y_batches = np.array_split(y_train[shuffled_idx], n_batches) 
for hidden2_batch, y_batch in zip(hidden2_batches, y_batches): 


sess.run(training_op, feed_dict={hidden2: hidden2_batch, y: y_batch}) 


最 后 一 行 运行 的 是 之 前 定义 好 的 训练 操作 (冻结 层 1 和 层 2) ， 然 后 把 
隐藏 层 2 (对 应 批量 目标 ) 的 批量 输出 传 给 它 。 因 为 我 们 把 隐藏 层 2 的 


JLN 


TT 所 以 它 不 用 尝试 去 评估 它 (或 者 它 依 赖 的 其 他 市 


HE > EFREM 


原始 模型 的 输出 层 经 常会 被 奉 换 ， 因 为 对 于 新 的 任务 基本 没有 用 ， 甚 
至 没 办 法 提供 正确 的 输出 个 数 。 


同样 ， 原 始 模型 的 高 隐藏 层 没有 低层 用 处 多 ， 因 为 对 于 新 任务 最 有 效 
的 高 级 特性 可 能 和 原始 任务 中 最 有 效 的 那些 特性 差别 很 大 。 你 需要 找 
到 正确 的 层 数 来 重用 。 


首先 尝试 冻结 所 有 的 复制 层 ， 然 后 训练 你 的 模型 观察 效果 。 接 着 尝试 
解冻 一 到 两 个 顶部 的 隐藏 层 ， 用 反 回 传播 进行 调整 来 观察 是 否 有 改 
善 。 训 练 数据 越 多 ， 越 能 解冻 更 多 的 层 。 


如 果 你 一 直 不 能 获得 好 的 效果 ， 而 且 训 练 数 据 很 少 ， 那 束 笑 试 丢 弃 最 
高 的 一 层 或 多 层 ， 然 后 重新 冻结 剩 下 的 隐藏 层 。 你 可 以 一 直 和 迭代 直 到 
找到 正确 的 重用 层 数 。 如 果 你 有 很 多 训练 数据 ， 你 可 以 答 试 奉 换 项 间 
的 隐藏 层 而 不 是 丢弃 它们 ， 甚 至 可 以 汪 、 加 一 些 隐 藏 层 。 


模型 动物 园 


在 哪里 可 以 找到 一 个 训练 好 的 类 似 神 经 网 络 来 完成 一 个 你 想 要 解决 的 
任务 呢 ? 首选 当然 是 你 目 己 已 有 的 模型 目 孙 。 这 是 一 个 很 好 的 方式 ， 
可 以 保存 你 所 有 的 模型 ， 方 便 你 整理 ， 也 方便 你 日 后 随时 调用 。 另 一 
个 选择 就 是 在 模型 动物 园 (Model Zoo) 里 搜索 。 很 多 人 针对 各 种 任务 
训练 了 很 多 机 天 学 习 的 模型 ， 并 且 很 慷慨 地 公开 这 些 预 训 练 的 模型 。 


TensorFlow 在 https://github.com/tensorflow/models 上 公开 了 自己 的 模型 
动物 园 。 特 别 需要 指出 的 是 ， 这 个 模型 动物 园 包 含 了 先进 图 片 识别 的 
网 络 ， 比 如 VGG、Inception 和 ResNet ( 见 第 13 章 ， 同 时 查看 models/slim 
目录 ) ， 包 括 代 码 、 预 训练 模型 ， 以 及 下 载 流行 图 乒 数 据 集 的 工具 。 


另 一 个 流行 的 模型 动物 园 是 Caffe 模 型 动物 园 《https:/goo.gLXI02X3 

) 。 其 中 也 包括 很 多 计算 机 视觉 模型 (比如: LeNet、AlexNet、 
ZFNet、GoogLeNet、VGGNet 和 inception) ， 也 都 在 各 种 数据 集 (比如 
ImageNet ` Places Database、CIFAR10 等 ) 上 经 过 训练 。Saumitro 


Dasgupta 写 了 一 个 转换 絮 ， 可 以 在 https://github.com/ethereon/caffe- 
tensorflow 找到 。 


无 监督 的 预 训练 


假设 你 要 完成 一 个 没有 太 多 标记 训练 数据 的 复杂 任务 ， 并 且 没 有 找到 
在 近似 任务 上 训练 过 的 模型 。 不 要 失去 希望 ! 首先 ， 你 肯定 需要 努力 
去 收集 更 多 的 标记 过 的 训练 数据 ， 但 是 如 果 这 个 代价 很 高 或 者 很 难 ， 
你 仍然 可 以 运行 无 监督 的 预 训练 〈 见 图 11-5) 。 也 就 是 说 ， 如 果 你 有 一 
堆 未 标记 的 训练 数据 ， 那 你 可 以 逐 层 训练 它们 ， 从 最 低层 开始 ， 然 后 
回 上 ， 利 用 一 种 非 监督 特性 检测 算法 比如 受 限 玻 尔 效 曼 机 (RBM, JL 
附录 E) 或 者 自动 编码 器 ( 见 第 15 章 ) 。 每 一 层 都 是 基于 提前 训练 好 的 
图 层 (除去 被 冻结 的 训练 层 ) 的 输出 进行 训练 。 一 旦 所 有 层 都 用 这 个 
2 ede te era) ane 
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Me TECK ACE, (LEI TOL PRR ARS; 事实 上 ， 
正 是 这 个 Geoffrey Hinton 和 他 的 团队 在 2006 使 用 的 技术 让 神经 网 络 复 
苏 ， 并 且 取 得 了 深度 学 习 的 成 功 。 直 到 2010 年 ， 无 监督 的 预 训练 ( 通 
常 使 用 RBM) 都 是 深度 网 络 的 基准 ， 只 有 在 梯度 消失 问题 得 到 缓解 之 
后 ， 用 反 疝 传播 来 训练 DNN 才 变 得 越 来 越 普 遍 。 人 然而， 在 面 对 复 杂 任 
务 处 理 、 没 有 相似 模型 可 重用 、 有 极 少 标记 过 的 训练 数据 但 是 却 有 很 
多 未 标记 的 训练 数据 的 情况 下 ， 无 监督 的 预 处 理 (现在 通常 使 用 上 自动 
编码 器 而 不 是 RBM) 仍然 是 一 个 非常 不 错 的 选择 。 世 | 


无 监督 的 《自动 加 密 ) 监督 的 ( 反 向 传播 


训练 层 1 训练 层 2 训练 层 3 训练 输出 层 和 第 调 项 层 


图 11-5: 无 监督 的 预 训练 
辅助 任务 中 的 预 训练 


最 后 一 个 选择 是 在 辅助 任务 中 训练 第 一 个 神经 网 络 ， 你 可 以 轻松 获得 
或 者 生成 标记 过 的 训练 数据 ， 然 后 重用 该 网 络 的 低层 来 实现 你 的 实际 
ee 
TERMI AS ° 


举 个 例子 ， 如 有 果 你 想 构建 一 个 人 脸 识 别 系 统 ， 但 是 你 只 有 每 个 人 的 几 
张 照片 ， 很 明显 没 办 法 训练 一 个 好 的 分 类 融 。 收 集 每 个 人 成 百 上 千张 


照片 根本 不 可 行 。 但 是 ， 你 可 以 在 网 上 收集 很 多 随机 的 人 像 照 片 ， 用 
它们 可 以 训练 第 一 个 神经 网 络 来 检测 两 张 不 同 的 照片 是 否 属于 相同 的 
人 。 这 个 网 络 将 学 习 优 质 的 人 脸 特征 检测 右 ， 然 后 重用 这 个 网 络 的 低 
层 ， 这 样 你 束 可 以 用 很 少 的 训练 数据 训练 出 一 个 优质 的 人 脸 分 类 邦 


通常 情况 下 ， 收 集 未 标记 训练 示例 会 廉价 很 多 ， 但 是 标记 它们 却 很 
贵 。 和 针对 这 种 情况 ， 常 用 的 技术 是 将 所 有 示例 都 标记 为 “好 ”， 然 后 通 
过 破坏 好 的 训练 示例 来 生成 新 的 训练 实例 ， 并 把 那些 被 破坏 的 实例 标 
记 为 “ 坏 ”。 接 大 你 就 可 以 训练 第 一 个 神经 网 络 来 区 分 好 的 实例 和 坏 的 
实例 。 举 个 例子 ， 你 可 以 下 载 数 百 万 条 句子 ， 标 记 它 们 为 “好 ”， 然 后 
随机 修改 每 一 句 中 的 一 个 单词 ， 并 标记 这 些 修改 后 的 句子 为 “ 坏 ”。 如 
采 一 个 神经 网 络 可 以 识别 出 “The dog sleeps” 是 好 , “The dog they” Œ 
坏 ， 那 么 它 可 能 已 经 学 会 不 少 语言 了 。 重用 这 个 网 络 的 低 朗 可 能 有 助 
于 很 多 语言 处 理 任务 。 


男 一 种 方法 是 训练 第 一 个 神经 网 络 ， 计 它 输出 每 一 个 训练 实例 的 得 
然后 利用 成 本 函数 ， 确 保 每 一 个 好 的 实例 的 得 分 都 比 坏 的 实例 的 
得 分 至 少 高 一 些 。 我 们 称 其 为 最 大 边界 学 习 。 


[1]. 另 一 种 方式 是 针对 你 可 以 很 方便 找到 大 量 标记 的 训练 数据 运行 一 个 
监督 任务 ， 然 后 使 用 之 前 提 到 的 迁移 学 习 。 举 个 例子 ， 如 果 你 想 训 练 
一 个 模型 来 识别 出 图 片 中 你 的 朋友 ， 你 可 以 在 网 上 下 载 成 千 上 万 张 
念 ， 然 后 训练 一 个 分 类 融 来 检测 两 张 脸 是 否 一 致 ， 之 后 用 这 个 分 类 项 
来 对 比 新 图 片 和 每 一 张 你 朋友 的 图 片 。 


快速 优化 天 


训练 一 个 很 大 的 深度 神经 网 络 可 能 相当 慢 。 到 目前 为 止 ， 我 们 已 经 了 
解 了 四 种 方法 来 提高 训练 速度 〈 并 且 实 现 一 个 更 好 的 解决 方案 ) : 在 
连 授 权重 上 应 用 一 个 民 好 的 初始 化 策略 ， 使 用 一 个 民 好 的 激活 芳 数 ， 
使 用 批量 归 一 化 ， 以 及 重用 部 分 预 处 理 网 络 。 另 一 种 明显 提高 训练 速 
度 的 方法 是 使 用 快速 优化 器 ， 而 不 是 常规 的 梯度 下 降 优 化 器 。 本 廊 我 
们 会 给 出 最 流行 的 几 种 : Momentum (动量 优化 ) , NAG (Nesterovt# 
度 加 速 ) ，AdaGrad，RMSProp， 以 及 Adam 优 化 。 


扰乱 警报 : 本 万 的 结论 是 你 几乎 一 直 需 要 使 用 Adam 优 化 ，! 贡 所 以 如 果 
你 不 关心 它 的 工作 原理 ， 那 么 就 只 需要 简单 地 用 AdamOptimizer 蔡 换 
GradientDescent Optimizer 然 后 跳 到 下 一 廊 就 可 以 了 ! 仅仅 是 这 么 简单 
的 一 个 改变 ， 训 练 速度 就 会 明显 提高 好 几 倍 。 然 而 ， 你 的 确 可 以 调 市 

(加 上 学 习 速 率 ) Adam 优 化 的 三 个 超 参数 ， 默 认 值 一 般 表现 良好 ， 但 
是 如 果 你 需要 对 它们 进行 微调 ， 了 解 每 一 个 值 具体 是 什么 还 是 很 有 帮 
se ae 所 以 有 必要 先 看 看 
FN ms 


Momentum 优 化 


想象 一 个 保龄球 在 光滑 表面 滚 下 一 个 平缓 的 斜坡 : 最 开始 会 很 慢 ， 但 
是 会 迅速 恢复 动力 ， 直 到 达到 最 终 速 度 (假设 有 一 定 摩 探 力 或 空气 姐 
J) 。 这 是 Momentum 优 化 的 一 个 很 简单 的 想法 ， 由 Boris Polyak 在 1964 
年 提出 (https://goo.gVFISE8c) ° PLA, HME Pease 
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回顾 一 下 之 前 的 内 容 ， 梯 度 下 降 是 直接 从 权重 9 中 减 去 成 本 函数 】 (0) 
的 梯度 (WA(0) ) 乘 以 学 习 速 率 n。 公 式 是 ， 89- 6-nYeAO) 。 它 不 关心 
之 前 的 梯度 是 多 少 。 如 果 本 地 梯度 很 少 ， 它 就 会 走 得 很 慢 。 


Momentum 优 化 关注 以 前 的 梯度 是 多 少 : 每 一 个 迭代 ， 会 给 momentum 
矢量 mm 加 本 地 梯度 〈 乘 以 学 习 速率 n) ， 同 时 权重 要 减 去 momentum 矢 量 
( 见 公式 11-4) 。 换 句 话 说 ， 梯 度 被 当 作 加 速度 来 使 用 ， 而 不 是 速度 。 
为 了 模拟 某 种 摩擦 机 制 并 防止 动量 (momentum) 增长 过 大 ， 该 算法 引 


入 了 一 个 新 的 超 参 数 p， 简 称 为 动量 ， 其 必须 设置 在 0 〈 高 摩擦 ) 和 1 
(无 摩擦 ) 之 间 。 一 个 标准 动量 值 为 0.9。 


公式 11-4: Momentum 算 法 


l.m< 6m +7 V,J(8) 
2.0—0-m 


可 以 很 容易 地 验证 当 梯 度 保持 一 个 常量 ， 最 终 速度 〈 即 权重 变化 的 最 
KE) 就 等 于 梯度 乘 以 学 习 速 率 n 乘 以 1/ (1-B) 。 举 个 例子 ， 如 果 
B=0.9， 那 么 最 终 速度 等 于 10 倍 梯度 乘 以 学 习 速 率 ， 所 以 Momentum 优 
化 最 终 会 比 梯度 下 降 快 10 倍 ! 这 样 就 使 得 Momentum 优 化 从 平台 逃离 比 
梯度 下 降 快 得 多 。 值 得 一 提 的 是 ， 在 第 4 章 中 我 们 看 到 当 输 入 的 尺寸 很 
特别 时 ， 成 本 函数 看 起 来 会 像 一 个 细 长 的 碗 ( 见 图 4-7) 。 梯 度 下 降 在 
陡坡 下 降 得 非常 快 ， 但 是 在 山谷 中 下 降 得 很 慢 。 相 比较 而 言 ， 
Momentum 优 化 会 以 越 来 越 快 的 速度 滑 向 谷底 直到 到 达 合 底 (ee) 。 
在 不 使 用 批量 归 一 化 的 深度 神经 网 络 中 ， 高 层 最 终 常 会 产生 不 同 尺寸 
Slide 因此 使 用 Momentum 优 化 会 很 有 帮助 ， 同 时 还 会 帮助 跨 过 局 部 
最 优 。 
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功 多 次 后 ， 最 后 稳定 在 最 小 值 。 这 也 和 是 系统 中 要 有 一 些 摩 氛 的 原因 之 
一 : 它 可 以 帮助 摆脱 振荡 ， 从 而 加 速 收 敛 。 


在 TensorFlow 中 实现 Momentum 优 化 非常 简单 : 只 需 用 
MomentumOptimizer 符 换 GradientDescentOptimizer， 然 后 等 着 结果 即 
可 o 


optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 


momentum=0.9) 


Momentum 优 化 的 一 个 缺点 是 增加 了 一 个 超 参数 来 微调 。 然 而 一 般 情 况 
下 ， 动 量 值 为 0.9 的 表现 都 比 梯度 下 降 好 。 


Nesterov 梯 度 加 速 


Yurii Nesterov 在 1983 年 提出 了 一 个 Momentum 优 化 的 小 的 变 体 ( 
https://goo.g/VOllvD) ， 彝 几乎 总 快 过 Vanilla Momentum 优 化 。 
Nesterov Momentum 优 化 ， 或 者 Nesterov 梯 度 加 速 (NAG) ， 是 用 来 衡 
量 成 本 函数 的 梯度 的 ， 不 是 在 本 地 而 是 动量 方向 稍 癌 前 一 点 的 位 置 

( 见 公 式 11-5) 。 与 Vanilla Momentum 优 化 唯一 的 不 同 就 是 用 9+Bm 来 测 
量 梯度 ， 而 不 是 9 © 


公式 11-5: Nesterov 梯 度 加 速算 法 


l.m< 6m + 7 V,J(6 + Bm) 
2.0—0 -m 


这 个 小 调整 有 效 是 因为 在 通常 情况 下 ， 动 量 矢量 会 指向 正确 的 方向 

( 即 最 优 方向 ) ， 所 以 在 该 方向 相对 远 的 地 方 使 用 梯度 会 比 在 原 有 地 
方 更 准确 一 些 ， 正 如 图 11-6 所 示 (其 中 Vi 表示 在 起 始点 9 用 成 本 画 数 
测量 的 梯度 ，VY2 表示 在 点 9+Bm 的 梯度 ) 。 正 如 你 所 见 ，Nesterov 更 接 
近 最 优 值 。 过 一 阵 之 后 ， 这 些小 的 改进 办 加 在 一 起 ， 于 是 NAG 就 比 常 
规 Momentum 优 化 明显 增 速 很 多 。 再 者 ， 注 意 到 当 动 量 把 权重 推 过 山谷 
时 ， Vi 会 跨 过 山谷 并 且 推 向 更 远 ， 然 而 VY2 却 往 谷底 的 方向 退回 了 一 
些 。 这 有 助 于 降低 振荡 ， 从 而 更 快 收敛 。 
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图 11-6: 常规 Momentum 优 化 对 比 Nesterov Momentum 优 化 


对 比 Momentum 优 化 ，NAG 几 乎 总 能 提高 训练 速度 。 要 使 用 NGA， 在 
创建 Momentum Optimizer 时 只 需 简 单 地 设置 use_nesterov=True 即 可 : 


optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate, 


momentum=0.9, use_nesterov=True) 


AdaGrad 


重新 考虑 一 下 细 长 碗 的 问题 : 梯度 下 降 开 始 很 快 就 走 下 最 陡 的 斜坡 ， 
之 后 慢 慢 移动 到 谷底 。 如 采 算 法 可 以 早点 检测 到 ， 并 且 修 正方 癌 往 全 


局 最 优 偏 移 一 些 就 好 了 。 
AdaGrad 算 法 (http:/goo.gL4Tyd4j) [和 通过 沿 着 最 陡 尺 寸 缩小 梯度 癌 
、( 见 公式 11-6) ° 


量 来 实现 这 一 斥 


公式 11-6: AdaGrad 算 法 


l.s<—s+V,J(0) © V,J(0) 
2.0<-6-nV,J(0)OV/s+€ 


第 一 步 将 梯度 的 平方 累积 到 向 量 s 中 (© 表示 矩阵 乘法 ) 。 这 个 向 量化 
表 等 于 给 向 量 s 中 每 一 个 元 素 s; 进 行 % “s+ (0/0000) ) 运算 ， 换 各 
话说 ， 对 于 参数 9; ， 每 个 si 累积 成 本 画 数 偏 导数 的 平方 。 如 果 成 本 画 
数 沿 着 第 i 个 尺 十 陡峭， 那么 si 会 在 每 一 个 迭代 中 越 来 越 大 。 


第 二 步 与 梯度 下 降 基 本 一 致 ， 但 是 有 一 个 最 大 的 区 别 : 梯度 向 量 按 比 
PIVS + € HN (O 表示 和 矩阵 除法 ，e 是 避免 除 以 0 的 平滑 项 ， 通 常设 置 
为 10-10) 。 这 个 向 量化 表 等 于 对 于 所 有 参数 9 ,进行 

0; <— 0; — nd/00,J(0)/ Vs; + € 运算 (同步 ) 。 


简 而 言 之 ， 这 个 算法 衰减 了 学 习 速 率 ， 但 是 对 于 陡 度 尺寸 而 言 ， 它 比 
使 用 较 绥 斜率 的 发 寸 要 快 得 多 。 这 称 为 适应 性 学 习 速 率 。 它 有 助 于 将 
所 得 到 的 更 新 更 直接 地 指向 全 局 最 优 ( 见 图 11-7) 。 男 一 个 附加 的 好 处 
征 只 需 对 学 习 速 率 超 参数 n 做 很 少 的 调整 。 


6, (维度 陡峭 程度 ) 


AdaGrad 


(维度 平坦 程度 ) 
b, 


图 11-7: AdaGrad 对 比 梯度 下 降 


AdaGrad 对 于 简单 的 二 次 问题 一 般 表 现 都 不 错 ， 但 是 在 训练 神经 网 络 时 
却 经 常 很 早 就 停 清 了 。 学 习 速 率 缩小 得 很 多 ， 在 到 达 全 局 最 优 前 算法 
就 停止 了 。 所 以 尽管 TensorFlow 有 AdagradOptimizer， 你 也 不 要 用 它 来 
训练 深度 神经 网 络 (但 是 ， 对 于 类 似 线性 回归 这 样 的 简单 任务 可 能 是 


有 效 的 ) 
RMSProp 


AdaGrad 降 速 太 快 而 且 没 办 法 收敛 到 全 局 最 优 ，RMSProp 算 法 中- 却 通 
过 仅 累积 最 近 和 迭代 中 的 梯度 (而 非 从 训练 开始 的 所 有 梯度 ) 解决 了 这 
ae 。 它 通过 在 第 一 步 使 用 指数 衰减 来 实现 这 个 操作 〈 见 公式 11- 
7 o 


公式 11-7: RMSProp 算 法 


l.s«Bs+(1-£) V,J(0) ®© VJ) 
2.0 —0 -nV J0 OVs +€ 


衰减 率 B 通 常设 置 为 0.9。 没 错 ， 这 又 是 一 个 新 的 超 参数 ， 但 是 这 个 默认 
值 一 般 表 现 都 比较 好 ， 所 以 你 基本 不 需要 做 任何 微调 。 


正如 你 所 期 待 的 ，TensorFlow 有 RMSPropOptimizer 类 : 


optimizer = tf.train.RMSPropOptimizer(learning_rate=learning_rate, 


momentum=0.9, decay=0.9, epsilon=1e-10) 


除去 非常 答 单 的 问题 ， 这 个 优化 如 的 表现 几乎 全 都 优 于 AdaGrad。 同 时 
表现 也 基本 都 优 于 Momentum 优 化 和 NAG。 事 实 上 ， 在 Adam 优 化 出 现 
之 前 ， 它 是 众多 全 究 者 所 推荐 的 优化 算法 。 

Adam 优 化 

Adam (https://goo.g/Un8Axa ) ，[ 外 代表 了 自 适 应 力矩 估计 ， 集 合 
Momentum 优 化 和 RMSProp 的 想法 :类似 Momentum 优 化 ， 它 会 跟 味 过 
去 梯度 的 指数 衰减 平均 值 ， 同 时 也 类 似 RMSProp， 它 会 跟 踩 过 去 梯度 
平方 的 指数 衰减 平均 值 〈 见 公式 11-8) ° 


公式 11-8: Adam 算 法 


l.m<£,m+(1-£,) V J(0) 
2.s— Bs +(1-£,) VIO) Q VJ) 
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THANE (MIFA) 。 


如 果 只 看 步骤 1、 步 骤 2 和 步骤 5， 你 会 发 现 Adam 同 Momentum 优 化 以 及 
RMSProp 非 常 类 似 。 唯 一 的 不 同 是 步骤 1 计算 的 是 指数 衰减 的 平均 值 而 
不 是 指数 衰减 的 总 和 ， 但 是 除了 常数 因子 以 外 ， 它 们 都 是 相等 的 〈 衰 
减 平 均值 是 1-B 1 倍 的 衰减 总 和 ) 。 步 又 3 和 步 又 4 是 一 种 技术 的 细 贡 : 
因为 m 和 s 初 始 化 都 为 0， 它 们 会 在 训练 开始 时 相对 0 有 一 点 偏 移 量 ， 所 
以 这 两 个 步 又 在 训练 开始 时 有 助 于 提高 m 和 s。 


动量 衰减 超 参 数 B | 通常 被 初始 化 为 0.9， 缩 放 衰 减 超 参 数 通常 被 初始 化 


为 0.999。 与 之 前 一 样 ， 平 滑 项 E 通常 会 设置 为 一 个 很 小 的 数字 ， 比 如 
10 6。 这 些 是 TensorFlow 的 AdamOptimizer 类 的 默认 值 ， 你 可 以 使 用 : 


3. M <— 


4. S 一 


optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) 


实际 上 ， 因 为 Adam 是 一 个 目 适 应 学 习 速率 算法 (与 AdaGrad 以 及 
RMSProp 类 似 ) ， 它 需要 对 学 习 速 率 超 参数 n 进 行 微 调 。 你 可 以 一 直 使 
用 默认 值 n=0.001， 这 样 使 得 Adam 比 梯度 下 降 更 容易 使 用 。 


` 目前 讨论 过 的 所 有 优化 技术 都 依赖 于 一 阶 偏 导数 (Jacobians) 。 优 
化 文献 包含 基于 二 阶 偏 导 数 (Hessians) 的 算法 。 不 幸 的 是 ， 这 些 算 法 
都 非常 难 应 用 到 深度 神经 网 络 ， 原 因 是 每 层 输 出 都 有 an? Hessians (其 中 
n 是 参数 个 数 ) ， 而 不 是 每 次 只 有 n Jacobians。 因 为 DNN 通 常 有 数 万 个 
参数 ， 所 以 二 阶 优化 算法 一 般 不 会 在 内 存 里 适用 ， 而 且 即 使 运行 ， 计 
算 Hessians 也 会 非常 慢 。 


训练 黎 焉 模型 


所 有 提 到 的 优化 算法 都 是 制作 密集 模型 ， 意 味 着 大 部 分 参数 都 是 非 堆 
的 。 如 果 你 需要 在 运行 时 有 一 个 超速 模型 ， 或 者 如 果 你 需要 它 占用 更 
少 的 内 存 ， 最 终 你 可 能 需要 一 个 稀 政 模型 。 


实现 这 个 目的 的 一 个 小 方法 是 像 往常 一 样 训 练 模型 ， 然 后 摆脱 掉 小 的 
权重 (将 其 设置 为 0) 。 


男 一 种 方法 是 在 训练 中 应 用 强 1 正 则 化 ， 因 为 它 可 以 促使 优化 絮 尽 可 能 
地 将 权重 归 零 (如 第 4 章 讨 论 的 Lasso 回 归 ) 。 


然而 ， 在 某 些 例 子 中 这 些 技术 可 能 会 无 效 。 最 后 一 个 方法 是 应 用 对 侦 
平均 ， 通 常 称 为 FTRL (Fllow The Regularized Leader) ， 这 是 Yurii 
Nesterov (https://g00.gV/xSQD4C_) 到 -提出 的 一 个 技术 。 当 使 用 1 正则 
化 时 ， 这 种 技术 会 寻 出 一 个 非常 稀 蚊 的 模型 。TensorFlow 在 
FTRLOptimizer 类 中 实现 了 一 个 名 为 FTRL-Proximal ( 
https://g00.¢1//bxme2B ) [1 的 FTRL 变 体 。 


学 习 速 率 调 度 


要 找到 一 个 良好 的 学 习 速率 会 比较 麻烦 。 如 果 你 把 它 设置 得 太 高 ， 训 
练 可 能 会 产生 分 歧 (如 第 4 章 讨 论 的 ) 。 如 果 设 置 得 太 低 ， 训 练 可 能 需 
要 花 很 长 的 时 间 才 能 收敛 到 最 优 解 。 如 果 你 设置 得 相对 高 一 些 ， 可 能 
最 开始 运行 得 很 快 ， 但 是 最 后 一 直 在 最 优 解 附近 摆动 不 停 下 来 (除非 
你 使 用 适应 性 学 习 速 率 优 化 算法 ， 比 如 AdaGrad、RMSProp 或 者 
Adam， 但 即使 这 样 也 需要 时 间 来 稳定 ) 。 如 果 你 的 计算 机 预算 有 限 ， 
Sarda 从 而 生成 次 优 解 ( 见 图 11- 
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图 11-8: 不 同学 习 速 率 的 学 习 曲 线 


你 可 能 会 通过 使 用 各 种 学 习 速率 ， 对 比 学 习 曲 线 在 几 个 数据 集 内 多 次 
训练 网 络 ， 从 而 得 到 一 个 非常 良好 的 学 习 速率 。 理 想 的 学 习 速率 学 习 
速度 非常 快 ， 并 且 会 收敛 到 良好 的 解决 方案 。 


然而 相 比 一 个 固定 的 学 习 速 率 ， 你 可 以 做 得 更 好 : 如 果 你 以 一 个 高 学 
习 速 率 开 始 ， 然 后 一 旦 它 停 止 快 速 过 程 就 降低 速率 ， 那 么 你 会 获得 一 
个 比 最 优 固 定 学 习 速率 更 快速 的 方案 。 有 很 多 不 同 的 策略 在 训练 过 程 
中 监督 学 习 速率 。 这 些 策 略称 为 学 习 计划 (我 们 在 第 4 章 简 单 介 绍 过 这 
个 概念 ) ， 最 常用 的 有 : 


预定 分 段 常数 学 习 速 率 

举 个 例子 ， 最 开始 设置 学 习 速 率 n 0=0.1， 在 50 个 数据 集 之 后 设置 n o 
=0.01。 尽管 这 个 方法 效果 不 错 ， 但 是 需要 搞 清 楚 正 确 的 学 习 速 率 和 何 
时 使 用 。 

性 能 调度 


每 N 个 步骤 进行 测量 来 验证 错误 〈 比 如 早起 停止 ) ， 然 后 当 错 误 停 止 出 
现时 ， 将 学 习 速 率 降 低 到 1 人 入 。 


指数 调度 

将 学 习 速 率 设置 为 迭代 数 t 的 函数 : on t) =n 10M o PRR IEE, 

但 是 需要 微调 nu 和 r。 学 习 速 率 每 r 步 下 降 10。 

设置 学 习 速 率 为 0 (t) =no (Gtr) <。 超 参 数 c 通 常设 置 为 1。 这 个 与 
站 数 调 度 类 似 ， 但 是 学 习 速 率 降 低 得 非常 慢 。 

Andrew Senior 等 人 在 2013 年 的 一 篇 论文 (http:wgoo.gUHu6Zyq.) HeH 
对 比 了 运用 Momentum 优 化 训练 深度 神经 网 络 进行 语音 识别 的 一 些 最 受 
欢迎 的 学 习 计 划 的 表现 。 作 者 总 结 ， 在 这 样 的 设置 下 ， 人 性 能 调度 和 指 


数 调度 表现 都 很 好 ， 但 是 他 们 更 推荐 指数 调度 ， 因 为 它 更 容易 实现 ， 
容易 微调 ， 而 且 收 敛 到 最 优 解 的 速度 稍 快 一 些 。 


用 TensorFlow 实 现 学 习 计划 非常 直接 : 


initial_learning_rate = 0.1 


decay_steps = 10000 


decay_rate = 1/10 


global_step = tf.Variable(0, trainable=False) 


learning_rate = tf.train.exponential_decay(initial_learning_rate, global_step, 


decay_steps, decay_rate) 


optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.9) 


training_op = optimizer.minimize(loss, global_step=global_step) 


设置 完 超 参 数值 后 ， 我 们 创建 一 个 不 可 训练 变量 global_step (初始 化 为 
0) 来 跟踪 当前 训练 的 大 代 数 。 然 后 我 们 用 TensorFlow 的 


exponential_decay () 函数 定义 一 个 指数 衰减 学 习 速 率 (Ey, =0.1, 
r=10000) 。 接 着 ， 我 们 构建 一 个 使 用 该 衰减 学 习 速 率 的 优化 器 〈 本 例 
使 用 了 MomentumOptimizer) 。 最 后 ， 我 们 通过 调用 优化 器 的 minimize 
O 方法 构建 训练 操作 ， 因 为 我 们 给 它 传 入 了 global_step 变 量 ， 所 以 它 


会 自 增 。 


为 AdaGrad、RMSProp 和 Adam 优 化 在 训练 中 目 动 降低 了 学 习 速 率 ， 
所 以 不 需要 额外 加 入 学 习 计划 。 对 于 其 他 的 优化 算法 ， 使 用 指数 衰减 
或 性 能 调度 可 以 很 有 效 地 提高 收敛 速度 。 
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通过 正则 化 避免 过 度 拟 合 
用 四 个 参数 我 可 以 适应 一 头 大 象 ， 用 五 个 参数 我 可 以 让 它 摆动 躯干 。 
John von Neumann, Enrico Fermi 在 Nature 427 中 引用 


深度 神经 网 络 通常 有 数 万 个 参数 ， 有 时 甚至 过 亿 。 因 为 有 大 量 参数 ， 
网 络 具 有 相当 的 目 由 度 ， 可 以 使 用 各 种 恶意 复杂 的 数据 集 。 但 是 这 种 
极 大 的 灵活 性 也 意味 着 它 容易 过 度 拟 合 训练 集 。 


拥有 数 亿 的 参数 你 可 以 适应 整个 动物 园 。 本 节 中 我 们 会 给 出 集中 神经 
网 络 中 最 受 欢迎 的 正则 化 技术 ， 以 及 用 TensorFlow 怎 样 实现 ， 提 前 停 
ik, €1 和 2 正则 化 、dropout、 最 大 范 数 正则 化 和 数据 扩充 。 


提前 何止 


有 要 避 免 过度 拟 合 训练 集 ， 有 一 个 解决 方案 是 提前 停止 〈 在 第 4 章 介绍 
过 ) : 当 验 证 集 的 性 能 开始 下 降 时 停止 训练 。 


用 TensorFlow 实 现 提 前 停止 的 一 种 方法 是 定期 对 验证 集 进行 模型 评估 

(比如 : 每 50 步 ) ， 同 时 如 果 表 现 好 于 前 一 个 “优胜 者 ”快照 就 将 此 “ 优 
胜 者 ”快照 保存 起 来 。 在 保存 最 后 一 张 “优胜 着” 快照 的 时 候 计算 步 数 ， 
当 步 数 达 到 某 些 限制 (比如: 2000 步 ) 时 停止 训练 。 然 后 恢复 最 后 
张 “优胜 者 ”快照 。 


尽管 在 练习 中 提前 停止 表现 得 很 好 ， 但 通常 你 还 是 可 以 通过 结合 其 他 
正则 化 技术 来 获得 更 高 的 性 能 。 


C1 和 2 正则 化 


与 第 4 章 中 简单 的 线性 模型 一 样 ， 你 可 以 使 用 ti 和 2 正则 化 来 约束 一 
个 神经 网 络 的 连接 权重 《但 通常 不 是 其 偏差 ) 。 


用 TensorFlow 实 现 的 一 个 方式 是 简单 地 将 适当 的 正则 项 加 在 你 的 成 本 男 
数 中 。 举 个 例子 ， 假 设 你 只 有 一 个 隐藏 层 ， 权 重 为 weight1， 一 个 输出 


层 ， 权 重 为 weight2， 然 后 你 可 以 这 样 使 用 t1 正则 化 : 


[...] # construct the neural network 
base_loss = tf.reduce_mean(xentropy, name="avg_xentropy" ) 
reg_losses = tf.reduce_sum(tf.abs(weights1)) + tf.reduce_sum(tf.abs(weights2) ) 


loss = tf.add(base_loss, scale * reg_losses, name="loss") 


然而 ， 如 采 层 数 多 ， 这 个 方法 束 不 是 很 有 效 。 滁 运 的 是 ，TensorFlow 提 
供 了 一 个 更 好 的 方案 。 许 多 构建 变量 的 函数 (比如 get_variable () 和 

fully_connected () ) 在 构建 每 一 个 变量 (比如 weights_regularizer) 时 
可 以 接受 一 个 参数 *_regularizer。 你 可 以 传递 任何 把 权重 作为 参数 并 且 
返回 相应 的 正则 化 损失 的 函数 。 画 数 11_regularizer () 、12_regularizer 
和 11_12_regularizer () 返回 这 些 函 数 。 下 面 的 代码 把 它们 放 在 一 

E; 


with arg_scope( 
[fully_connected], 
weights_regularizer=tf.contrib.layers.11_regularizer(scale=0.01)): 
hidden1 = fully_connected(X, n_hiddeni, scope="hidden1i" ) 
hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") 


logits = fully_connected(hidden2, n_outputs, activation_fn=None, scope="out") 


这 个 代码 构建 了 一 个 有 两 个 隐藏 层 和 一 个 输出 层 的 神经 网 络 ， 同 时 也 
在 图 中 构建 了 节点 来 计算 对 应 每 一 层 权 重 的 t1 正则 化 损失 。 

TensorFlow 自 动 将 这 些 节 点 加 到 一 个 包含 所 有 正则 化 损失 的 特殊 连接 
你 只 需要 将 这 些 正则 化 损失 加 到 你 整体 的 损失 中 即 可 ， 类 似 这 


reg_losses = tf.get_collection(tf.GraphKeys .REGULARIZATION_LOSSES ) 


loss = tf.add_n([base_loss] + reg_losses, name="loss") 


A 不 要 起 记 将 正则 化 损失 加 a 到 整体 损失 中 ， 不 然 束 会 补 直 接 忽 上 略 


dropout 


最 受 欢迎 的 深度 神经 网 络 正 则 化 技术 无 疑 是 dropout。 它 是 由 G.E.Hinton 
在 2012 年 提出 的 (https://go0.g/PMjVnG ) H- Ne Srivastava 等 人 在 
之 后 的 一 篇 论文 (http:/goo. g/DNKZo1 ) [2]. 中 进行 了 更 细致 的 解释 ， 
并 且 证 明 有 很 高 的 成 功率 : 即使 是 最 匈 进 的 种 经 网 络 在 加 了 dropout 之 
后 也 能 提高 1%~29% 的 正确 性 。 这 看 上 去 可 能 不 是 很 多 ， 但 是 当 一 个 模 
型 已 经 有 95% 的 正确 性 提高 2% 就 意味 着 降低 了 将 近 40% 的 错误 率 

(从 5% 的 误差 到 差不多 3%) 


这 是 一 个 很 简单 的 算法 : BE TURE, BR (LTA 

神经 元 ， 不 包括 输出 神经 元 ) 都 有 一 个 会 被 暂时 “丢弃 * 的 可 能 性 p， 意 

四 是 在 这 次 训练 步骤 中 它 会 被 完全 忽略 ， 但 是 到 下 一 步 的 时 候 就 会 被 

激活 〈 见 图 11-9) 。 超 参数 p 被 称 为 丢弃 率 ， 通 常设 置 为 50%。 在 训练 

ee 。 原理 束 古 这 样 (除去 我 们 等 下 要 讲 的 技 
细节 ) 。 


图 11-9: dropout 正 则 化 
最 开始 这 种 相当 暴力 的 方法 可 以 起 作用 也 是 非常 令 人 震惊 的 。 如 果 员 


工 每 天 早上 通过 扔 人 硬币 来 决定 去 不 去 上 班 ， 这 样 的 公司 会 越 来 越 好 
吗 ? 好 吧 ， 谁 知道 呢 ， 说 不 定 会 呢 ! 公司 很 明显 是 要 去 适应 它 的 组 
织 ， 而 不 是 依赖 某 一 个 人 去 填充 咖啡 机 或 者 去 做 其 他 关键 的 任务 ， 所 
以 这 些 专业 知识 必须 分 散 到 好 几 个 人 有 身上 上。 员工 需 要 学 习 和 许多 同事 
一 些 协作 ， 而 不 仅 是 其 中 几 个 人 。 公 司 的 适应 性 会 越 来 越 好 。 如 果 有 
一 个 人 离开 ， 也 不 会 有 太 大 的 影响 。 现 在 还 不 清楚 这 个 想法 对 于 公司 
是 不 是 真正 奏效 ， 但 是 对 于 神经 网 络 的 确 是 有 用 的 。 训 练 有 dropout 的 
神经 元 不 能 和 周围 的 神经 元 共 适 应 ; 它们 必须 让 目 己 尽 可 能 有 用 。 它 
们 也 不 能 过 分 依赖 几 个 输入 神经 元 ; 它们 必须 关注 每 一 个 输入 神经 
元 。 它 们 最 后 会 变 得 对 于 输入 的 轻微 变化 不 那么 敏感 。 最 终 ， 你 会 获 
得 一 个 更 好 地 泛 化 了 的 健壮 的 网 络 。 


再 者 ， 理 解 dropout 的 强大 是 因为 注意 到 在 每 一 个 训练 步骤 都 会 创建 一 
个 独立 的 神经 网 络 。 因 为 每 一 个 神经 元 都 可 能 出 现 或 不 出 现 ， 所 以 就 
会 有 总 共 2N 个 可 能 的 网 络 (其 中 N 是 可 丢弃 神经 元 的 个 数 ) 。 这 是 一 
个 很 大 的 数字 ， 几 乎 不 可 能 对 一 个 神经 网 络 采 样 两 次 。 一 旦 你 已 经 运 
行 了 10000 个 训练 步 台 ， 那 你 实际 上 就 已 经 训练 了 10000 个 不 同 的 神经 
网 络 (每 一 个 网 络 都 有 一 个 训练 实例 ) 。 这 些 神经 网 络 很 明显 不 是 独 


立 的 ， 因 为 它们 共享 很 多 它们 的 权重 ， 但 是 它们 还 是 不 同 的 。 所 得 到 
的 神经 网 络 可 以 看 作 走 这 些 较 小 的 神经 网 络 的 平均 集合 。 


这 里 所 到 一 个 很 小 但 是 很 重要 的 技术 细 了 。 假 设 p=50， 在 测试 期 间 ， 
一 个 神经 元 将 会 被 连接 到 训练 期 间 输入 神经 元 CE) 的 两 倍 。 为 了 
弥补 这 个 情况 ， 我 们 需要 在 训练 之 后 给 每 一 个 神经 元 的 输入 连接 权重 
乘 以 0.5。 如 果 不 这 样 做 ， 每 一 个 神经 元 就 会 得 到 一 个 总 输入 信号 ， 大 
概 是 之 前 训练 网 络 的 两 倍 ， 而 且 性 能 不 会 表现 得 特别 好 。 更 通俗 来 
讲 ， 我 们 需要 在 训练 结束 后 给 每 一 个 输入 连接 权重 乘 以 保持 可 能 性 (1- 
p) 。 或 者 ， 我 们 可 以 在 训练 过 程 中 给 每 一 个 神经 元 的 输出 除 以 保持 可 
能 性 《这 些 可 选 方案 不 完全 一 致 ， 但 是 它们 的 效果 都 一 样 好 ) 。 


要 用 TensorFlow 实 现 dropout， 你 可 以 直接 在 输入 层 和 每 一 个 隐藏 层 的 输 
出 调用 dropout O) 函数 。 在 训练 中 ， 这 个 函数 会 随机 丢弃 一 些 项 GE 
它们 设置 为 0) ， 并 且 给 剩 下 的 项 除 以 保持 可 能 性 。 在 训练 结束 后 ， 这 
een 。 下 面 是 一 个 针对 三 层 神经 网 络 应 用 dropout 正 则 化 
J 例子: 


from tensorflow.contrib.layers import dropout 


[...] 


is_training = tf.placeholder(tf.bool, shape=(), name='is_training') 


keep_prob = 0.5 


X_drop = dropout(X, keep_prob, is_training=is_training) 


hidden1 = fully_connected(X_drop, n_hiddeni, scope="hiddeni" ) 


hiddeni_drop = dropout(hidden1, keep_prob, is_training=is_training) 


hidden2 = fully_connected(hiddeni_drop, n_hidden2, scope="hidden2") 


hidden2_drop = dropout(hidden2, keep_prob, is_training=is_training) 


logits = fully_connected(hidden2_drop, n_outputs, activation_fn=None, 


scope="outputs" ) 


Be 你 想 在 tensorflow.contrib.layers 调 用 dropout () ， 而 不 是 
tensorflow.nn。 在 不 训练 的 时 候 ， 对 你 想 调 用 的 第 一 个 关 掉 (no-op) , 
但 是 第 二 个 不 关 。 


当然 ， 与 之 前 批量 归 一 化 类 似 ， 你 需要 在 训练 时 设置 is_training 为 
True， 在 测试 时 设置 is_training 为 False。 


如 果 发 现 模 型 过 度 拟 合 ， 你 可 以 提高 dropout 速 率 ( 即 降低 keep_prob 超 
BN) 。 相 反 ， 如 有 果 模 型 不 拟 合 训练 集 ， 你 需要 降低 dropout 速 率 ( 即 
提高 keep_prob 超 参数 ) 。 同样 针对 大 层 可 以 帮助 提高 dropout 速 率 ， 针 
对 小 层 可 以 降低 。 


dropout 确 实 收敛 变 慢 ， 但 是 如 宋 微 调 合适 ， 它 通 单 都 会 得 到 一 个 更 好 
的 模型 。 所 以 这 个 结 末 是 值得 付出 多 一 些 时 间 和 代价 的 。 


` Dropconnectzdropouthj— SZ, 它 随机 丢弃 掉 独 立 连 接 ， 而 不 
征 整 个 神经 元 。 通 音 情 况 下 ，dropout 和 表现 得 更 好 。 


最 大 范 数 正则 化 


另 一 种 神经 网 络 比较 流行 的 正则 化 技术 叫 作 最 大 范 数 正则 化 : 对 每 一 
个 神经 元 ， 包 含 一 个 传 入 连接 权重 w 满 足 ||w|| ,<r， 其 中 rf 是 最 大 范 数 超 


参数 ,| ,是 {2 范 数 。 


我 们 通 单 这 样 来 满足 这 个 约束 ， 在 每 一 次 训练 步 又 后 计算 jwl >， 同时 


( BE/ f | 
如 果 和 需要 会 剪裁 a 


降低 r 会 增加 正则 化 数目 ， 同 时 帮助 减少 过 上 度 拟 合 。 最 大 范 数 正则 化 可 
以 同时 帮助 缓解 梯度 消失 /爆炸 问题 《如 果 不 使 用 批量 归 一 化 ) 。 


TensorFlow 没 有 提供 现成 的 最 大 范 数 正 则 化 左 ， 但 是 实现 起 来 也 不 难 。 
下 面 的 代码 构建 了 一 人 1 把 clip_weights, 该 节点 会 沿 着 第 二 个 轴 削 减 
weights 变 量 ， 从 而 使 每 一 个 行 癌 量 的 最 大 范 数 为 1.0: 


threshold = 1.0 
clipped_weights = tf.clip_by_norm(weights, clip_norm=threshold, axes=1) 


clip_weights = tf.assign(weights, clipped_weights) 


Gna] AIZE P TEAST RE EP PR JE TEE: 


with tf.Session() as sess: 


for epoch in range(n_epochs): 


for X_batch, y_batch in zip(X_batches, y_batches): 


sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 


clip_weights.eval() 


如 果 你 不 知道 如 何 获得 每 一 层 的 weights 变 量 。 你 可 以 像 下 面 这 样 调用 
—A nJ ye H: 


hidden1 = fully_connected(X, n_hidden1, scope="hidden1") 


with tf.variable_scope("hiddeni", reuse=True): 


weights1 = tf.get_variable("weights") 


同样 ， 你 也 可 以 调用 根 变量 范围 : 


hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni" ) 


hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2" ) 


with tf.variable_scope("", default_name="", reuse=True): # root scope 
weights1 = tf.get_variable("hidden1i/weights" ) 


weights2 = tf.get_variable("hidden2/weights" ) 


如 果 你 不 知道 某 个 变量 的 名 字 ， 可 以 调用 TensorBoard 去 查询 或 者 调用 
global_variables () 函数 打印 出 所 有 的 变量 名 : 


for variable in tf.global_variables(): 


print(variable.name) 


尽管 之 前 的 方法 效果 不 错 ， 但 是 还 是 有 点 烦琐 。 一 个 简 污 的 方法 是 构 
建 一 个 max_norm_regularizer () 函数 ， 像 之 前 的 11_reg ularizer () 画 
数 一 样 使 用 : 
def max_norm_regularizer(threshold, axes=1, name="max_norm", 
collection="max_norm"): 
def max_norm(weights): 
clipped = tf.clip_by_norm(weights, clip_norm=threshold, axes=axes) 
clip_weights = tf.assign(weights, clipped, name=name) 
tf.add_to_collection(collection, clip_weights) 


return None # there is no regularization loss term 


return max_norm 


这 个 函数 返回 一 个 参数 化 max_norm () BRAC, (RAT REHE ENEAS 
一 样 使 用 它 : 

max_norm_reg = max_norm_regularizer(threshold=1.0) 

hidden1 = fully_connected(X, n_hiddeni, scope="hiddeni", 


weights_regularizer=max_norm_reg) 


最 大 范 数 正则 化 不 需要 将 正则 化 损失 项 加 入 整体 损失 函数 ， 所 以 
max_norm () 方法 返回 None。 但 是 你 仍然 需要 在 每 一 个 训练 步骤 之 后 


1 [Alclip_weightsPe(F, IFRA AT DURE ATA e BE IIT A 
max_norm () ERACZ2SUclip_weights T 3 Fle AVERY MER ER A 
里 。 你 需要 调用 这 些 剪 裁 操 作 并 在 每 一 个 训练 步骤 之 后 返回 它们 : 


clip_all_weights = tf.get_collection("max_norm") 


with tf.Session() as sess: 
[...] 
for epoch in range(n_epochs): 
[...] 
for X_batch, y_batch in zip(X_batches, y_batches): 
sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 


sess.run(clip_all_weights) 


代码 整 涪 多 了 ， 是 吧 ? 
数据 扩充 


最 后 一 个 正则 化 技术 是 数据 扩充 ， 包 括 从 已 有 实例 构建 新 的 训练 实 
例 ， 人 为 提高 训练 集 大 小 。 因 为 会 减少 过 度 拟 合 ， 所 以 它 是 一 种 正则 
化 技术 。 环 手 的 是 构建 一 个 切实 可 用 的 训练 实例 ， 理 想 情况 下 ， 人 是 
没 办 法 区 分 哪个 实例 建 好 了 ， 哪 个 没有 建 好 。 而 且 ， 简 单 地 增加 日 品 
声 也 没有 用 ; 你 进行 的 修改 应 该 是 可 学 习 的 〈 白 噪声 不 可 学 习 ) 。 


举 个 例子 ， 如 采 你 的 模型 要 区 分 麻 菇 的 照片 ， 你 可 简单 地 移动 、 旋 转 
和 改变 每 张 在 训练 集中 的 照 斤 的 大 小 ， 同 时 把 这 些 改 变 后 的 照片 添加 
进 训练 集 中 〈 见 图 11-10) 。 这 就 迫使 模型 要 兼容 照片 中 蘑菇 的 位 置 、 
方向 和 大 小 。 如 果 你 希望 模型 对 光 的 敏感 度 也 增加 ， 那 你 可 以 类 似 地 
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翻转 照片 。 通 过 混合 各 种 变换 ， 你 可 以 很 快 地 增加 你 的 训练 集 。 


图 11-10: 用 现 有 实例 来 生成 新 的 训练 实例 


一 般 偏向 在 训练 过 程 中 快速 生成 训练 实例 ， 而 不 是 浪费 存储 空间 和 网 
络 带 宽 。TensorFlow 提 供 了 多 种 图 片 处 理 操作 ， 比 如 转 置 ( 偏 移 ， 、 旋 
转 、 调 整 大 小 、 翻 转 和 裁剪 ， 同 时 还 有 调整 亮度 、 对 比 度 、 饱 和 度 和 
e ( 详 见 API 文 档 ) 。 这 样 就 可 以 轻松 地 实现 图 像 数 据 集 的 数据 扩 


` 另外 一 种 训练 深度 神经 网 络 的 有 效 技 术 是 添加 跳 过 连接 E 
就 是 把 层 输 入 加 到 高 层 的 输出 上 ) 。 我 们 会 在 第 13 章 讨论 到 深度 残留 
网 络 时 再 展开 讨论 。 


[1|_ “Improving neural networks by preventing co-adaptation of feature 
detectors”, G.HintonS A (2012) œ 


[2|_ “Dropout : A Simple Way to Prevent Neural Networks from 
Overfitting”, N.SrivastavaS À (2014) 


实用 指南 


在 这 一 章 里 ， 我 们 介绍 了 很 多 技术 ， 你 可 能 会 搞 不 清 a 到底 应 该 用 哪 一 
个 。 表 11-2 中 的 配置 在 大 多 数 情况 下 都 征 有 用 的 。 


表 11-2: 默认 DNN 配 置 


Initialization He initialization 
Activation function ELU 

Normalization Batch Normalization 
Regularization dropout 

Optimizer Adam 

Learning rate schedule None 


当然 ， 如 采 能 够 找到 解决 类 似 问 题 的 方法 ， 你 应 该 符 试 重用 部 分 预 训 
练 的 神经 网 络 。 


这 个 默认 配置 可 能 需要 调整 : 

如果 你 找 不 到 民 好 的 学 习 速 率 (之 前 收敛 太 慢 ， 所 以 你 想 提高 训练 速 
率 ， 现 在 收敛 变 快 了 ， 但 是 网 络 正 确 性 却 是 次 优 的 ) ， 那 你 可 以 尝试 
添加 一 个 类 似 指 数 衰减 的 学 习 计划 。 

-如 采 你 的 训练 集 有 点 小 ， 你 可 以 使 用 数据 扩充 。 


-如 果 你 需要 一 个 稀疏 模型 ， 你 可 以 在 混合 中 加 一 些 t1 正则 化 (并 且 在 
训练 之 后 选择 权重 为 0) 。 如 有 果 你 想 要 再 稀 中 一 些 的 模型 ， 你 可 以 答 试 


用 FTRL 代 替 Adam 优 化 ， 并 且 搭 配 t1 正则 化 。 

-如果 你 在 运行 时 需要 一 个 快速 内 电 模 型 ， 你 可 能 需要 丢弃 批量 归 一 

化 ， 同 时 可 能 需要 用 leaky ReLU 代 替 ELU 激 活 函 数 。 有 一 个 稀 瑰 模型 可 
能 也 会 有 帮助 。 

有 了 这 些 准则 ， 你 就 可 以 开始 训练 一 个 深度 网 络 了 一 一 好 吧 ， 如 果 你 
很 有 耐心 ， 那 就 对 了 ! 如 果 你 只 有 一 台 设 备 ， 你 可 能 需要 等 上 几 天 甚 
至 几 个 月 才能 完成 训练 。 在 下 一 章 ， 我 们 会 讨论 怎么 使 用 分 布 式 
TensorFlow 来 在 许多 服务 需 和 GPU 上 训练 和 运行 模型 。 


练习 


ri He 初始 化 随机 进行 选择 ， 束 可 以 将 所 有 权重 初始 化 为 相同 
ENS? 


2. 将 偏 移 项 初始 化 为 0 可 以 吗 ? 
3. 给 出 ELU 相 比 ReLU 的 3 个 优点 。 


4. 在 什么 情况 下 你 会 依次 使 用 下 列 这 些 激活 函数 : ELU 、leaky ReLU 
(以 及 它 的 变 体 ) 、ReLU、tanh、 人 逻辑 激活 函数 和 softmax? 


5. 使 用 Momentum Optimizer 时 ， 如 采 你 将 动量 超 参数 设置 的 离 1 特别 近 
(比如 0.99999) ， 那 么 会 发 生 什么 ? 


6. 给 出 三 种 沟通 稀 疏 模型 的 方法 。 
7.dropout 会 减 慢 训 练 速度 吗 ? 是 否 减 慢 推理 ( 即 对 新 实例 进行 预测 ) ? 
8. 深 度 学 习 。 


a. 用 每 100 个 神经 元 5 个 隐藏 层 ，He 初 始 化 和 ELU 激 活 函 数 构 建 一 个 
DNN 。 


b. 用 Adam 优 化 和 提前 停止 ， 党 斌 在 MNIST 上 进行 训练 ， 但 只 能 在 数字 0 
~-4 之 间 ， 因 为 在 下 一 个 练习 中 我 们 会 用 迁移 学 习 来 对 5 一 9 进行 训练 。 


你 需要 一 个 有 5 个 神经 元 的 softmax 输 出 层 ， 而 且 要 一 直 保 持 定 期 保存 检 
查 点 ， 然 后 要 保存 最 后 的 模型 以 便 之 后 重用 。 


c. 用 交叉 验证 调整 超 参 数 ， 观 察 你 可 以 实现 的 精度 。 


d. 芝 斌 添加 批量 归 一 化 来 对 比 学 习 曲 线 : 十 否 比 之 前 收敛 得 快 ? 是 否 构 
建 了 一 个 更 好 的 模型 ? 


e. 模 型 是 否 过 度 拟 合 训练 集 ? 给 每 一 层 加 dropout 再 试 一 次 ， 看 看 是 否 
用 。 


9. 迁 移 学 习 。 


a. 重 用 预 训练 的 隐藏 层 和 之 前 的 模型 构建 一 个 新 的 DNN， 冻 结 它 ， 同 时 
用 新 的 DNN 人 代替 softmax 输 出 层 。 


b. 对 数字 5~9 训 练 这 个 新 的 DNN， 一 个 数字 只 用 100 张 图 ， 会 花 多 长 时 
间 。 除 去 这 个 小 个 数 样本 ， 你 还 可 以 达到 更 高 的 精度 吗 ? 


c. 尝 试 缓 促 冻结 层 ， 重 新 训练 模型 :这 次 会 花 多 长 时 间 ? 

d. 只 用 4 个 隐藏 层 再 斌 一次， 能 获得 更 高 的 精度 吗 ? 

e. 将 最 上 面 的 两 个 隐藏 层 解冻 继续 训练 : 你 能 让 模型 表现 得 更 好 吗 ? 
10. 在 辅助 任务 上 进行 预 训练 。 


a. 在 这 个 练习 中 ， 你 要 构建 一 个 DNN， 对 比 两 个 MNIST 数 字 图 片 并 预 
测 它们 是 否 代表 同一 个 数字 。 然 后 ， 重 用 这 个 网 络 的 低层 ， 用 很 少 的 
训练 数据 来 训练 一 个 MNIST 分 类 器 。 首 先 构 建 两 个 DNN (我 们 称 之 为 
DNN A 和 DNN B) ， 它 们 都 和 你 之 前 构建 的 DNN 一 样 ， 只 是 没有 输出 
Z: 每 个 DNN 要 保证 每 100 个 神经 元 有 5 个 隐藏 层 ，He 初 始 化 和 ELU 激 
活 。 接 着 ， 在 两 个 DNN 的 顶部 添加 一 个 输出 层 。 你 要 调用 TensorFlow 
的 concat () 函数 ， 并 且 设 置 axis=1， 用 函数 将 两 个 DNN 沿 着 水 平 轴 连 
接 起 来 ， 然 后 将 结果 传 给 输出 层 。 这 个 输出 层 应 包含 一 个 使 用 逻辑 激 
活 函 数 的 单个 神经 元 。 


b. 将 MNIST 训 练 集 一 分 为 二 : 分 组 1 包 55000 张 图 片 ， 分 组 2 包含 5000 张 
图 片 。 构 建 一 个 生成 训练 批量 的 函数 ， 其 中 每 个 实例 都 是 从 分 组 1 中 选 


择 的 一 对 MNIST 图 片 。 一 半 的 训练 实例 应 该 是 属于 同一 类 型 的 图 片 
对 ， 而 另 一 半 属 于 不 同类 型 。 对 每 一 个 图 片 对 ， 如 采 来 目 同一 类 型 则 
训练 标签 标记 为 0， 如 有 果 来 目 不 同类 型 则 标记 为 1。 


c. 在 这 个 训练 集 上 训练 DNN。 对 每 一 个 图 片 对 ， 你 都 可 以 同时 将 第 一 张 
图 片 传 给 DNN A， 第 二 张 图 片 传 给 DNN B。 整 个 网 络 慢 慢 就 可 以 分 辨 
出 两 张 图片 古 否 属于 同一 种 类 型 。 


d. 现 在 通过 重用 和 冻结 DNN 的 隐 减 屋 ， 同 时 在 10 个 神经 元 上 添加 一 个 
softmax 输 出 的 方法 构建 一 个 新 的 DNN。 在 分 组 2 上 训练 这 个 网 络 ， 看 
看 在 每 一 类 只 有 500 张 图 片 的 情况 下 能 不 能 获得 比较 高 的 性 能 。 


练习 的 参考 答案 详 见 附 永 A © 
第 12 章 ”路 设备 和 服务 器 的 分 布 式 TensorFlow 


第 11 章 讨论 了 不 少 可 以 有 效 提高 训练 速度 的 技术 : 更 好 的 权重 初始 
化 、 批 量 归 一 化 、 复 杂 的 优化 右 等 。 然 而 ， 即 使 使 用 所 有 这 些 技术 ， 
在 只 有 一 个 CPU 的 单独 机 器 上 训练 一 个 大 的 神经 网 络 也 需要 花 几 天 其 
至 儿 周 的 时 间 。 


在 这 一 章 里 ， 我 们 会 看 到 如 何 用 TensorFlow 在 多 运算 资源 (CPU 和 
GPU) 中 进行 分 布 式 计算 ， 并 且 同 步 运行 〈 见 图 12-1) 。 首 先 会 先 在 一 
台 机 右上 跨 多 个 运算 资源 进行 分 布 式 计算 ， 然 后 在 跨 机 器 跨 多 个 运算 
资源 进行 分 布 式 计算 。 
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图 12-1: 并 行 跨 多 个 运算 资源 执行 TensorFlow 图 


TensorFlow 对 于 分 布 式 运算 的 文 持 是 它 相 较 其 他 神经 网 络 框 以 一 个 主要 
的 亮点 。 可 以 全 权 控 制 如 何在 设备 和 服务 器 之 间 分 割 (或 复制 ) 计算 
图 ， 并 允许 你 以 灵活 的 方式 进行 并 行 和 同步 操作 ， 从 而 允许 你 在 各 种 
并 行 化 操作 中 任意 选择 。 


我 们 会 了 解 一 下 并 行 执行 和 训练 神经 网 络 的 主流 方法 。 相 比较 花 几 周 
时 间 等 一 个 训练 算法 结束 ， 你 可 能 只 需要 等 几 个 小 时 。 这 样 不 仅 可 以 
节省 大 量 时 间 ， 还 意味 着 你 可 以 更 轻松 地 对 各 种 模型 进行 实验 ， 同 时 
还 能 频繁 用 新 数据 来 重新 训练 你 的 模型 。 


其 他 比较 好 的 并 行 化 例子 包括 在 微调 模型 时 探索 更 大 的 超 参 数 空间 ， 
并 有 效 地 运行 大 型 神经 网 络 集合 体 。 


但 古 在 跑 之 前 我 们 必须 先 学 会 走 。 我 们 先 从 在 一 个 单独 机 颖 上 跨 几 个 
GPU 并 行 简单 图 开始 。 
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实 上 ， 在 很 多 情况 下 ， 这 束 足 够 了 ;你 根本 不 需要 使 用 多 台 机 器 。 举 
个 例子 ， 你 通 钊 可 以 使 用 单个 机 历 上 的 8 个 GPU 来 训练 神经 网 络 ， 而 不 
征 在 多 人 台 机 器 上 使 用 16 个 GPU (由 于 多 机 器 设置 中 的 网 络 通 信和 所 造成 
的 额外 延迟 ) 。 


本 节 将 介绍 如 何 设置 环境 ， 以 便 TensorFlow 可 以 在 一 台 机 器 上 使 用 多 个 
GPU 卡 。 然 后 我 们 会 看 看 如 何在 可 用 设备 之 间 分 配 操 作 且 并 行 执行 。 


LR 


为 了 让 TensorFlow 可 以 在 多 GPU 卡 上 运行 ， 你 首先 需要 确保 上 自己 的 GPU 
卡 有 NVidia 计 算 功能 (高 于 或 等 于 3.0 版 本 ) 。 包 括 Nvidia 的 Titan ` 
Titan X、K20 和 K40 卡 (如 果 你 有 其 他 的 卡 ， 你 可 以 在 
https://developer.nvidia.com/cuda-gpus. 上 查询 它 的 兼容 性 ) ° 


A 如 条 你 没有 GPU 卡 ， 你 可 以 用 有 GPU 功能 的 托管 服务 ， 比 如 
Amazon AWS ° }iga Avsec 的 帮助 文档 (http:/goo.glkbge5b ) 上 有 如 何 
在 一 个 AWS GPU 实例 上 用 Python 3.5 创 建 一 个 TensorFlow 0.9 的 详细 介 
绍 。 更 新 到 最 新 的 TensorFlow 版 本 应 该 也 不 难 。Google 也 发 布 了 一 个 名 
为 Cloud Machine Learning (https://cloud.google.conyml] ) 的 云 服务 来 运 
行 TensorFlow 图 。 在 2016 年 5 月 ， 他 们 宣布 他 们 的 平台 上 包含 装 有 张 量 
处 理 单元 (TPU) 的 服务 器 ， 该 处 理 器 是 专门 为 机 器 学 习 定制 的 ， 比 
针对 多 ML 任务 的 GPU 处 理 速度 快 得 多 。 当 然 ， 男 一 个 选择 就 是 自己 买 
GPU 卡 。Tim Dettmers 写 了 一 篇 很 棒 的 博客 (https:Wgoo.gUpCtSAn ) 来 
帮 你 选择 ， 而 且 他 一 直 在 更 新 博客 。 


必须 要 下 载 和 安装 CUDA 和 cuDNN 库 的 可 用 版 本 (如 果 你 用 二 进 制 安 
装 TensorFlow 1.0.0 版 本 ， 那 么 CUDA 8.0, cuDNN5.1) ， 然 后 设置 一 
些 环境 变量 让 TensorFlow 知 道 去 哪 找 CUDA 和 cuDNN。 详 细 的 安装 文档 
可 能 经 常会 更 新 ， 所 以 最 好 遵循 TensorFlow 官 网 上 的 介绍 。 


Nvidia 的 计算 统一 设备 架构 库 (CUDA) 人 允许 开发 人 员 使 用 支持 CUDA 
的 GPU 进行 各 种 计算 (不 仅仅 是 图 形 加 速 ) 。Nvidia 的 CUDA 深 度 神 经 
网 络 库 (cuDNN) 是 一 个 GPU 加 速 的 原始 图 形 库 ， 用 于 DNN。 它 提供 


了 常规 DNN 计 算 的 优化 实现 ， 例 如 激活 层 、 归 一 化 、 前 向 和 后 向 卷 
积 ， 以 及 池 化 ( 见 第 13 章 ) 。 它 是 Nvidia 深 度 学 习 SDK 的 一 部 分 (请 注 
意 ， 你 需要 创建 一 个 Nvidia 开发 者 账户 才能 下 载 它 ) TensorFlow 使 用 
CUDA 和 cuDNN 来 控制 GPU 卡 并 加 速 计算 ( 见 图 12-2) ° 
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图 12-2: TensorFlow 使 用 CUDA 和 cuDNN 控 制 GPU 和 加 速 DNN 
可 以 用 nvidia-smi 命 令 来 检查 CUDA 是 否 安 装 成 功 。 它 会 列 出 可 用 的 
GPU 卡 ， 以 及 每 张 卡 上 运行 的 进程 : 
$ nvidia-smi 


Wed Sep 16 09:50:03 2016 


| NVIDIA-SMI 352.63 Driver Version: 352.63 | 


本 让 


| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 


| Fan Temp Perf Pwr:Usage/Cap|Memory-Usage | GPU-Util Compute M. | 


=========================+==================+====================== 
| © GRID K520 Off | 0000:00:03.0 Off] N/A | 
| N/A 27C P8 17W / 125W | 11MiB / 4095MiB | 0% Default | 
eee ee eo eee See eS Pei a Ee eee ee E a a Hist Seek aes at eek + 
Pest ee ON ee Leer a ee ee Se ee ee ee eS + 
| Processes: GPU Memory | 
| GPU PID Type Process name Usage 


| No running processes found 


最 后 ， 必须 安装 支持 GPU 的 TensorFlow。 如果 用 virtualenv 创 建 了 一 个 独 
立 的 环境 ， 首 先 需 要 激活 它 : 


$ cd $ML_PATH # Your ML working directory (e.g., $HOME/m1) 


$ source env/bin/activate 


然后 安装 适当 版 本 的 支持 GPU 的 TensorFlow: 


$ pip3 install --upgrade tensorflow-gpu 


现在 可 以 打开 一 个 Python shell， 检 查 TensorFlow 通 过 导入 TensorFlow 并 
创建 会 话 来 正确 检测 和 使 用 CUDA 和 cuDNN: 

>>> import tensorflow as tf 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcublas.so locally 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcudnn.so locally 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcufft.so locally 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcuda.so.1 locally 

I [...]/dso_loader.cc:108] successfully opened CUDA library libcurand.so locally 


>>> sess = tf.Session() 


I [...]/gpu_init.cc:102] Found device 0 with properties: 
name: GRID K520 

major: 3 minor: © memoryClockRate (GHz) 0.797 

pciBusID 0000:00:03.0 

Total memory: 4.00GiB 

Free memory: 3.95GiB 

I [...]/gpu_init.cc:126] DMA: 0 


I [...]/gpu_init.cc:136] 0: Y 


I [...]/gpu_device.cc:839] Creating TensorFlow device 
(/gpu:0) -> (device: 0, name: GRID K520, pci bus id: 0000:00:03.0) 
看 起 来 不 错 ! TensorFlow 检 测 到 CUDA 库 和 cuDNN 库 ， 并 且 用 CUDA 库 
令 测 GPU 卡 (这 个 例子 中 是 Nvidia Grid K520 卡 ) ° 
管理 GPU RAM 
默认 情况 下 TensorFlow 在 第 一 次 运行 图 形 时 会 目 动 抓 取 所 有 可 用 GPU 中 


的 所 有 RAM， 因 此 当 第 一 个 TensorFlow 程 序 在 运行 时 ， 无 法 启动 第 二 
个 。 如 果 和 尝试 ， 将 出 现 以 下 错误 : 


E [...]/cuda_driver.cc:965] failed to allocate 3.66G (3928915968 bytes) from 


device: CUDA_ERROR_OUT_OF_MEMORY 


一 个 解决 方案 是 在 不 同 的 GPU 卡 上 运行 每 一 个 程序 。 为 了 完成 这 个 任 
务 ， 最 简单 的 方法 是 设置 CUDA_VISIBLE_DEVICES 环 境 变量 ， 这 样 
可 以 对 每 一 个 进程 只 可 见 可 用 的 GPU 卡 。 举 个 例子 ， 可 以 用 下 面 的 方 
法 来 启动 两 个 程序 : 

$ CUDA_VISIBLE_DEVICES=0,1 python3 program 1.py 


# and in another terminal: 


$ CUDA_VISIBLE_DEVICES=3,2 python3 program_2.py 


程序 1 将 只 能 看 到 GPU 卡 0 和 1 (分 别 编 号 为 Oo 和 1) ， 程 序 2 将 只 能 看 到 
GPU 卡 2 和 3 〈 分 别 编号 为 1 和 0) 。 一 切 都 运行 良好 〈 见 图 12-3) ° 


GPU#0  GPU#1 GPUH2 GPUR 


图 12-3: 每 个 程序 本 身 都 有 两 个 GPU 
男 一 个 方案 就 是 告诉 TensorFlow 只 占 一 小 部 分 内 存 。 比 如 ,为 了 使 
TensorFlow 只 占 每 个 GPU 内 存 的 40%， 必 须 创 建 ConfigProto 对 象 ， 将 
gpu_options.per_process_gpu_memory_fraction 选 项 设置 为 0.4。 
config = tf.ConfigProto() 


config.gpu_options.per_process_gpu_memory_fraction = 0.4 


session = tf.Session(config=config) 


现在 两 个 程序 可 以 用 同 款 GPU 卡 并 行 运行 〈 但 不 是 3 个 ， 因 为 
3x0.4>1) ， 见 图 12-4。 


GPU #0 GPU #1 GPU #2 GPU #3 


图 12-4: 每 一 个 程序 用 4 个 GPU， 但 是 每 个 只 有 40% 的 RAM 


当 两 个 程序 同时 运行 时 ， 如 果 你 运行 nvidia-smi 命 令 ， 你 会 看 到 每 一 个 
进程 大 约 占 每 张 卡 总 RAM 的 40%: 


$ nvidia-smi 
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| GPU PID Type Process name Usage 

| 0 5231 C python 1677MiB | 
| 0 5262 C python 1677MiB | 
| 1 5231 C python 1677MİB | 


| 1 5262 C python 1677MiB 


还 有 一 个 方案 是 让 TensorFlow 只 在 需要 的 时 候 占 用 内 存 。 要 完成 这 个 任 
务 ， 必 须 设置 config.gpu_options.allow_growth 为 True。 但 是 TensorFlow 

` 会 释放 占用 过 的 内 存 《避免 内 存 酚 上 请) ， 所 以 过 一 阵子 之 后 还 是 会 
内 存 不 够 。 使 用 此 方案 可 能 更 难保 证 确定 性 行为 ， 因 此 一 般 来 说 ， 你 
可 能 和 希望 坚持 使 用 之 前 的 某 一 个 方案 。 


现在 你 有 一 个 可 运行 的 支持 GPU 的 TensorFlow 了 。 接 下 来 看 看 如 何 使 用 
È! 


在 设备 上 操作 


TensorFlowH Æ P 出 给 出 了 一 个 友好 的 动态 配置 算法 ， 可 以 自动 分 配 
所 有 设备 上 的 操作 ， 同 时 考虑 之 前 图 标 运算 中 所 测量 的 时 间 ， 以 及 评 
佑 每 次 操作 输入 和 输出 传感器 的 大 小 ， 每 个 设备 上 RAM 的 可 用 情况 ， 
设备 传输 数据 中 的 通信 延迟 ， 来 自用 户 的 提示 和 约束 ， 等 等 。 遗 憾 的 
是 ， 这 个 复杂 的 算法 是 Google 内 部 的 ， 没 有 在 开源 版 本 的 TensorFlow 里 
发 布 。 它 没有 发 布 的 原因 似乎 是 ， 在 实践 过 程 中 ， 由 用 户 指 定 的 一 小 
套 配 置 规 则 实际 比 动 态 配 置 絮 更 能 给 出 有 鸡 的 配置 。 然 而 ，TensorFlow 
团队 正在 努力 改进 动态 配置 ， 也 许 之 后 就 会 发 布 『。 


在 这 之 前 ，TensorFlow 都 是 依赖 于 简易 配置 器 ， 它 (顾名思义 ) 是 非常 
基本 的 。 
简单 配置 


不 论 何 时 运行 一 张 图 ， 如 果 TensorFlow 需 要 评估 一 个 尚未 配置 在 设备 上 
的 节点 ， 就 需要 一 个 简易 配置 器 来 存放 它 和 其 他 没有 配置 的 节点 。 简 
易 配 置 器 需要 遵守 下 面 儿 个 规则 : 


-如 琳 一 个 节操 已 经 在 图 的 上 一 次 运行 中 配置 在 设备 上 了 ， 那 它 整 还 留 
在 那 台 设 备 上 。 


:其 他 的 情况 下 ， 如 果 用 户 指 定 了 一 个 市 点 到 一 个 设备 (后面 讲解 ) ， 
配置 如 束 配置 在 那 台 设备 上 。 


-剩余 的 情况 下 ， 默 认为 GPU 0 号 ， 或 者 在 没有 GPU 的 时 候 就 选用 
CPU ° 


正如 你 所 见 ， 配 置 操 作 在 可 用 的 设备 上 基本 全 依赖 于 你 个 人 。 如 于 你 
什么 都 不 做 ， 整 个 图 束 会 被 配置 在 默认 设备 上 “。 如 果 需 要 把 世 点 固定 
在 设备 上 ， 你 需要 用 device () 方法 创建 一 个 设备 块 。 举 个 例子 ， 下 面 
的 代码 在 CPU 上 固定 变量 a 和 常量 b， 但 是 乘法 市 点 c 没 有 固定 在 任何 设 
钾 上 ， 所 以 它 会 被 配置 在 默认 设备 上 : 


with tf.device("/cpu:0"): 


a = tf.Variable(3.0) 


b = tf.constant(4.0) 


` vcpu: RARA T —ShBCPUARAHATA CPU ° SATAN 
7% BY ERE T R BAF RE HY CPUBCE REH A CPU — abot © 
记录 配置 


一 起 看 一 下 简易 配置 絮 是 否 遵 守 了 刚 定 义 的 配置 约束 。 为 此 ， 可 以 设 
置 log_device_placement 选 项 为 True; ES UMM TEAC TARY eid 
永 信息 ° 比如 : 


>>> config = tf.ConfigProto() 


>>> config.log_device_placement = True 


>>> sess = tf.Session(config=config) 


I [...] Creating TensorFlow device (/gpu:0) -> (device: ©, name: GRID K520, 


pci bus id: 0000:00:03.0) 


>>> xX.initializer.run(session=sess) 


I [...] a: /job:localhost/replica:0/task:0/cpu:0 


I [...] a/read: /job:localhost/replica:0/task:0/cpu:0 

I [...] mul: /job:localhost/replica:0/task:0/gpu:0 

I [...] a/Assign: /job:localhost/replica:0/task:0/cpu:0 

I [...] b: /job:localhost/replica:0/task:0/cpu:0 

I [...] a/initial_value: /job:localhost/replica:0/task:0/cpu:0 


>>> sess.run(c) 
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对 于 Info， 以 “开头 的 行 是 日 志 信息 。 当 创建 一 个 会 话 时 ，TensorFlow 
会 记录 一 条 信息 ， 告 诉 我 们 它 已 经 发 现 了 一 张 GPU 卡 (本 例 中 使 用 的 
Grid K520 卡 ) 。 然 后 ， 在 我 们 第 一 次 运行 图 时 〈 当 初始 化 变量 aj ， 将 
运行 简易 配置 右 ， 并 将 每 个 节点 配置 在 其 分 配 的 设备 上 。 与 预期 一 
样 ， 日 志 信 息 显 示 出 所 有 的 节点 都 配置 在 "cpu: ov k, RAED AZ 
外 ， 它 们 最 后 放 在 默认 设备 "/gpu: 0" 上 (现在 可 以 先 忽 略 掉 前 级 /job: 
localhost/replica: O/task: 0; 之 后 再 讨论 ) 。 注 意 ， 在 第 二 次 运行 图 时 
(计算 c) 时 ， 没 有 使 用 配置 器 ， 是 因为 所 有 TensorFlow 需 要 计算 c 的 市 
点 都 配置 过 了 。 


动态 配置 方法 


当 创建 一 个 设备 块 时 ， 可 以 指定 一 个 功能 而 不 是 一 个 设备 和 名。 
TensorFlow 会 针对 每 一 个 需要 在 这 个 设备 块 中 配置 的 操作 调用 这 个 方 
法 ， 同 时 这 个 方法 必须 返回 指定 操作 对 应 的 设备 名 。 举 个 例子 ， 下 面 
的 代码 整 把 所 有 的 可 变节 把 痢 配置 到 "/cpu: 0" GX MIF ALAA 
ma) ， 所 有 的 证 点 都 配置 到 "/gpu: 0": 


def variables_on_cpu(op): 
if op.type == "Variable": 
return "/cpu:0" 
else: 


return "/gpu:0" 


with tf.device(variables_on_cpu): 
a = tf.Variable(3.0) 
b = tf.constant(4.0) 
c=a*b 
Dee nae 比如 以 循环 方式 将 变量 固定 在 GPU 
间 。 
操作 和 内 核 
要 让 一 个 TensorFlow 操 作 运 行 在 一 台 设 备 上 ， 需要 有 针对 那 台 设备 的 实 
现 ， 这 称 为 一 个 内 核 。 许 多 操作 都 有 CPU 和 GPU 的 内 核 ， 但 不 十 所 有 


都 有 内 核 。 比 如 ，TensorFlow 针 对 整数 变量 就 没有 GPU 内 核 ， 所 以 下 面 
的 代码 在 TensorFlow 壬 试 在 0 号 GPU 上 配置 变量 i 时 会 失败 : 


>>> with tf.device("/gpu:0"): 


i = tf.Variable(3) 


>>> sess.run(i.initializer) 


Traceback (most recent call last): 


tensorflow. python. framework.errors.InvalidArgumentError: Cannot assign a device 


to node 'Variable': Could not satisfy explicit device specification 


注意 : TensorFlow 推 测 变量 一 定 是 int32 类 型 ， 因 为 初始 值 是 一 个 整数 。 
如 琳 把 初始 值 从 3 变 成 3.0， 或 者 在 生成 这 个 变量 时 明确 设置 
dtype=tf.float32， 那 么 所 有 操作 都 会 正常 运行 。 


软 配 置 


默认 情况 下 ， 如 有 果 你 想 在 一 台 设 备 上 固定 一 个 没有 内 核 的 操作 ， 那 么 
在 TensorFlow 答 试 将 操作 配置 到 设备 上 时 ， 你 残 会 收 到 之 前 显示 的 异 
常 。 如 果 你 更 希望 TensorFlow 回 归 到 GPU， 你 可 以 设置 
allow_soft_placement 选 项 为 True: 


with tf.device("/gpu:0"): 


i = tf.Variable(3) 


config = tf.ConfigProto() 


config.allow_soft_placement = True 


sess = tf.Session(config=config) 


到 目前 为 止 我 们 已 经 讨论 了 如 何在 不 同 的 设备 上 配置 地点 。 现 在 我 们 
来 看 看 TensorFlow 如 何 并 行 执行 这 些 世 点 。 


开行 横行 


当 TensorFlow 运 行 一 个 图 时 ， 它 会 先 找 出 需要 评估 的 节点 的 列表 ， 以 及 
每 一 个 节点 的 依赖 数 。 接 着 TensorFlow 会 从 无 依赖 的 节点 开始 评估 ( 即 
源 节点 ) 。 如 果 这 些 节点 配置 在 了 不 同 的 设备 上 上， 那么 很 明显 它们 就 
可 以 同时 评估 。 如 果 它 们 配置 在 了 同一 台 设 备 上 ， 则 可 以 在 不 同 的 线 
因此 也 可 以 并 行 运行 〈 在 不 同 的 GPU 线程 或 CPU 内 核 


TensorFlow 管 理 每 一 台 设 备 的 线程 池 来 并 行 化 操作 〈 见 图 12-5) 。 它 们 
称 为 inter-op 线 程 池 。 一 些 操作 具有 多 线程 内 核 : 它们 可 以 使 用 其 他 称 
为 intra-op 线 程 池 的 线程 池 (每 个 设备 一 个 ) 。 


12-5: TensorFlow 图 的 并 行 化 执行 


举 个 例子 ， 在 图 12-5 中 ， 操 作 A、 操 作 B 和 操作 C 是 源 操作 ， 所 以 它们 
可 以 被 立刻 评估 。 操 作 A 和 操作 B 放 在 0 号 GPU 上 ， 所 以 它们 被 送 至 设 
备 的 inter-op 线 程 池 ， 从 而 被 并 行 评 佑 。 操 作 A 人 页 巧 有 多 线程 内 核 ， 它 的 
计算 就 会 分 成 三 部 分 ， 由 intra-op 线 程 池 并 行 执 行 。 操 作 C 会 到 达 GPU 1 
号 的 inter-op 线 程 池 。 


一 旦 操作 C 完 成 ， 操 作 D 和 操作 E 的 依赖 计数 器 就 会 开始 减 小 ， 最 终 都 
会 为 0， 所 以 这 两 个 操作 也 会 被 送 到 inter-op 线 程 池 来 执行 。 


~ 可 以 通过 设置 inter_op_parallelism_threads 选 项 来 控制 每 一 个 inter-op 
池 的 线程 数量 。 注 意 ， 你 开始 的 第 一 个 会 话 创建 了 inter-op 线 程 池 。 其 
他 会 话 会 重用 它们 ， 除 非 设置 use_per_session_threads 选 项 为 True。 可 以 
通过 设置 intra_op_parallelism_threads 选 项 来 控制 每 一 个 intra-op 线 程 池 的 
线程 数 。 


控制 依赖 


在 某 些 例子 中 ， 推 迟 一 个 操作 的 评估 可 能 会 比较 明智， 即使 所 有 它 依 
赖 的 操作 都 已 经 执行 。 举 个 例子 ， 如 果 它 用 了 大 量 的 内 存 ， 但 只 是 图 
中 很 深 的 地 方 需要 它 的 值 ， 那 最 好 就 在 最 后 再 评 佑 它 ， 从 而 可 以 避免 
不 必要 地 占用 其 他 操作 可 能 需要 的 RAM。 另 一 个 例子 是 一 组 依赖 设备 
外 数据 的 操作 。 如 采 它 们 同时 运行 ， 将 暂 用 设备 的 通信 市 宽 ， 节 终 可 
能 导致 全 部 停 在 /7O 上 “。 其 他 需要 通信 数据 的 操作 将 被 阻塞 。 比 较 好 的 
方式 是 顺序 执行 这 些 通 信 重 的 操作 ， 从 而 允许 设备 可 以 同时 执行 其 他 
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K TRP EET, ARA EESE ERN PAT T 
的 代码 就 是 告诉 TensorFlow 只 有 在 a 和 b 都 评估 完 之 后 才 可 以 评 佑 x 和 y: 


a = tf.constant(1.0) 


b=a+ 2.0 


with tf.control_dependencies([a, b]): 


x = tf.constant(3.0) 


y = tf.constant(4.0) 


z=x+y 


很 明显 ， 因 为 z 依 赖 于 x 和 y， 所 以 评估 z 意 味 着 要 等 a 和 b 评 估 完 ， 尽 管 它 
没有 明确 地 在 control_dependencies () 块 中 。 同 样 ， 因 为 b 依 赖 于 a， 所 
以 可 以 通过 只 创建 [b] 而 不 是 [a，b] 的 控制 依赖 来 简化 前 面 的 代码 ， 但 是 
有 些 例子 中 “ 显 式 优 于 隐 式 ”。 

IRE! 你 现在 知道 : 

:如 何在 不 同 设备 上 以 不 同方 式 来 配置 操作 。 

如何 并 行 执行 这 些 操作 。 

如何 通过 创建 控制 依赖 来 优化 并 行 执行 。 

是 时 候 开 始 跨 多 服务 名 来 分 进行 布 式 计算 了 ! 


[1]_“TensorFlow : Large-Scale Machine Learning on Heterogeneous 
Distributed Systems”, Google Research (2015) 


多 设备 器 多 服务 大 


要 实现 跨 服务 器 来 运行 图 ， 首 先 需 要 定义 一 个 集群 。 集 群 由 一 个 或 多 
个 TensorFlow 服 务 器 〈 称 为 任务 ) 组 成 ， 任 务 通 常 分 布 在 多 台 机 器 上 

( 见 图 12-6); 。 每 一 个 任务 都 属于 一 个 作业 。 作 业 是 一 组 通常 具有 共同 
作用 的 任务 ， 比 如 追踪 模型 参数 (这 个 作业 通常 用 "ps" 来 表示 参数 服务 
at) ， 或 者 执行 计算 (这 个 作业 通常 称 为 "worker") 。 


作业 “ps” 作业 “worker” 


{Tako | O Tasko Taskl | 
tcp:2221 tcp:2222 tep:2222 


TF 服务 器 


图 12-6: TensorFlow 集 群 


下 面 的 集群 规范 定义 了 两 个 作业 "ps" 和 "worker"， 二 者 分 别 包含 一 个 和 
两 个 任务 。 在 这 个 例子 中 ， 机 器 A 托管 两 个 TensorFlow 服 务 器 (BHE 
务 ) ， 监 听 不 同 的 端口 : 一 个 是 "ps" 作 业 的 一 部 分 ， 另 一 个 

是 "worker" 作 业 的 一 部 分 。 机 器 B 只 有 一 个 TensorFlow 服 务 器 ， 只 

是 "worker" 作 业 的 一 部 分 。 


cluster_spec = tf.train.ClusterSpec({ 


"ps": [ 


"machine-a.example.com:2221", # /job:ps/task:0 


], 
"worker": [ 
"machine-a.example.com:2222", # /job:worker/task:0 


"machine-b.example.com:2222", # /job:worker/task:1 


]}) 


为 了 局 动 一 个 TensorFlow 服 务 器 ， 需 要 创建 一 个 Server 对 象 ， 把 它 传 给 
集群 规范 (这 样 才 能 和 其 他 服务 器 通信 ) ， 同 时 有 作业 名 称 和 任务 
P 为 了 开始 第 一 个 worker 任 务 ， 需 要 在 机 器 A 上 运行 下 面 


server = tf.train.Server(cluster_spec, job_name="worker", task_index=0) 


通常 一 台 机 器 上 只 运行 一 个 任务 会 更 简单 ， 但 是 之 前 的 例子 说 明 
TensorFlow 支 持 你 在 同一 台 机 器 运行 多 个 任务 。! 直 如 果 在 一 台 机 器 上 
有 多 个 服务 器 ， 需 要 确保 它们 不 会 像 之 前 提 到 的 那样 同时 尝试 去 占用 
每 一 个 GPU 的 所 有 RAM。 举 个 例子 ， 图 12-6 中 的 "ps" 任 务 没 有 GPU， 
为 推测 其 进程 是 使 用 CUDA _VISIBLE_DEVICES="" 启 动 的 。 注 意 ， 
CPU 是 共享 给 同一 台 机 器 上 的 所 有 任务 的 。 


如 果 你 只 想 启 动 TensorFlow 服 务 絮 但 什么 也 不 做 ， 你 可 以 通过 让 
TensorFlow 等 待 服务 器 完成 join () 方法 来 阻 断 主 进程 (否则 服务 器 会 
在 主 进程 退出 时 立刻 关 掉 ) 。 因 为 目前 没有 方法 可 以 停止 服务 器 ， 所 
以 这 样 束 会 一 直 阳 上 断 : 


server.join() # blocks until the server stops (i.e., never) 


开启 一 个 会 话 


一 旦 所 有 任务 启动 并 运行 〈 不 做 任何 事情 ) ， 就 可 以 在 任何 服务 器 上 
从 位 于 任何 一 台 机 器 上 的 任何 进程 中 的 客户 端 (甚至 从 运行 其 中 一 个 
任务 的 进程 ) 中 开局 会 话 ， 并 像 一 个 章 规 的 本 地 会 话 一 样 使 用 该 会 
1 EMIT: 


a = tf.constant(1.0) 
b=a+2 


c=a* 3 


with tf.Session("grpc://machine-b.example.com:2222") as sess: 


print(c.eval()) # 9.0 


这 上 段 客户 端 代 码 首先 创建 了 一 个 简单 的 图 ， 然 后 在 位 于 机 器 B (我 们 称 
为 master) 的 TensorFlow 服 务 器 上 开启 一 个 会 话 ， 然 后 让 它 去 评估 c 。 
master 会 开始 将 探 作 配置 到 合适 的 设备 上 。 在 这 个 例子 中 ， 因 为 我 们 没 
有 对 任何 设备 做 任何 操作 ， 所 以 主机 器 只 需 将 它们 全 部 配置 到 上 自己 的 


默认 设备 一 本 例 中 为 机 器 B 的 GPU 设备 。 之 后 会 根据 客户 端 要 求 评 估 
c 并 返回 结果 。 
master 和 worker 服 务 


客户 端 使 用 gRPC 协 议 (Google 远 程 过 程 调用 ) 在 服务 器 间 进 行 通信 。 
这 是 一 个 很 高 效 的 开源 框架 ， 用 来 调用 远程 印 数 并 通过 跨 多 个 平台 和 
语言 来 获得 输出 。[ 半 这 个 协议 基于 HTTP2， 即 打开 一 个 连接 ， 并 在 整 
个 会 话 过 程 中 保持 打开 ， 一旦 建立 连接 就 允许 高 效 的 双向 通信 。 数 据 
以 协议 缓冲 区 (Google 男 一 个 开源 技术 ) 的 形式 传输 。 这 是 一 种 轻 量 
级 的 二 进 制 数 据 交 换 格式 。 


Be 一 个 TensorFlow 集 群 的 所 有 服务 胡 在 集群 内 部 部 可 以 相互 通信 ， 
所 以 要 确保 打开 防火 墙 上 的 相应 端口 。 


每 一 个 TensorFlow 服 务 器 都 提供 两 个 服务 : master 和 worker。master 用 
于 给 客户 端 创建 会 话 ， 并 用 其 运行 图 。 它 在 协调 跨 任 务 的 计算 ， 依 赖 
于 worker 实 际 执行 其 他 任务 的 计算 并 获得 结果 。 


这 个 架构 给 了 你 很 多 灵活 性 。 一 个 客户 端 可 以 通过 在 不 同 线 程 中 开启 
多 个 会 话 来 连接 到 不 同 的 服务 右 。 一 个 服务 器 可 以 同时 处 理 来 目 一 个 
或 多 个 客户 端的 会 话 。 可 以 一 个 客户 端 一 个 任务 (通常 在 同一 个 进程 
中 ) ， 或 者 一 个 客户 端 负 责 所 有 任务 。 所 有 的 选择 都 是 开放 的 。 

分 配 跨 任务 操作 

可 以 通过 指定 作业 名 称 、 任 务 索 3 引 、 设 备 型 号 和 设备 索引 ， 使 用 设备 
块 对 由 任何 任务 管理 的 任何 设备 进行 分 配 操 作 。 举 个 例子 ， 下 面 的 代 
码 将 a 分 配 到 "ps" 作 业 ( 即 机 器 A 的 CPU) 中 的 第 一 个 任务 ， 将 b 分 给 
由 "worker" 作 业 ( 即 机 器 A 的 GPU 1 号 ) 的 第 一 个 任务 管理 的 第 二 个 
GPU。 最 后 ，c 没 有 分 给 任何 设备 ， 所 以 master 把 它 配 置 到 自己 的 默认 
设备 〈 机 器 B 的 0 号 GPU 设备 ) 。 


with tf.device("/job:ps/task:0/cpu:0") 


a = tf.constant(1.0) 


with tf.device("/job:worker/task:0/gpu:1") 


与 之 前 一 样 ， 如 果 你 漏 掉 设备 型 号 和 索引 ，TensorFlow 会 默认 配置 到 任 
务 的 默认 设备 ， 举 个 例子 ， 固 定 操 作 "job: ps/task: 0" 会 配置 到 "ps" 作 
业 的 第 一 个 任务 的 默认 设备 上 ( 即 机 器 A 的 CPU) 。 如 果 你 同时 漏 掉 任 
务 索 引 (比如 "job: ps") ，TensorFlow 会 默认 为 "/task: 0"。 如 果 你 漏 
掉 作 业 名 称 和 任务 索引 ，TensorFlow 会 默认 配置 到 会 话 的 master 任 务 。 
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正如 我 们 很 快 会 看 到 的 ， 在 一 个 分 布 式 环境 下 训练 神经 网 络 的 常用 模 
板 是 将 模型 参数 存储 在 参数 服务 器 集合 ( 即 "ps" 作 业 中 的 任务 上 ， 同 
时 其 他 任务 专注 于 运算 〈 即 "worker" 作 业 中 的 任务 ) 。 对 于 有 上 亿 参 数 
的 大 模型 ， 跨 多 参数 服务 絮 来 分 片 这 些 参 数 是 非常 有 用 的 ， 可 以 降低 
单个 参数 服务 絮 的 网 卡 饱 和 的 风险 。 如 果 你 之 前 手动 给 不 同 的 参数 服 
Fahl ee, AWARE SS ° A5, TensorFlowsettt T 
replica_device_setter () 方法 ， 它 以 循环 方式 在 所 有 "ps" 任 务 之 前 配置 
变量 。 举 个 例子 ， 下 面 的 代码 在 两 个 参数 服务 右上 配置 五 个 变量 : 


with tf.device(tf.train.replica_device_setter(ps_tasks=2): 
vi = tf.Variable(1.0) # pinned to /job:ps/task:0 
v2 = tf.Variable(2.0) # pinned to /job:ps/task:1 
v3 = tf.Variable(3.0) # pinned to /job:ps/task:0 
v4 = tf.Variable(4.0) # pinned to /job:ps/task:1 


v5 = tf.Variable(5.0) # pinned to /job:ps/task:0 


不 要 传 ps_tasks 的 个 数 ， 可 以 传 集群 规范 cluster=cluster_spec， 
TensorFlow 会 简单 计算 "ps" 作 业 中 的 任务 个 数 。 


如 果 在 块 中 创建 了 其 他 操作 ， 不 仅仅 是 变量 ，TensorFlow 会 自动 将 它们 
分 配给 job: worker"， 这 样 束 会 默认 分 配 到 由 "worker" 作 业 中 的 第 一 个 
任务 管理 的 第 一 个 设备 上 。 可 以 通过 设置 worker_device 参 数 将 它们 分 
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以 覆盖 外 部 设备 块 中 定义 的 设备 作业 、 任 务 或 设备 。 比 如 : 
with tf.device(tf.train.replica_device_setter(ps_tasks=2) ): 
vi = tf.Variable(1.0) # pinned to /job:ps/task:0 (+ defaults to /cpu:0) 
v2 = tf.Variable(2.0) # pinned to /job:ps/task:1 (+ defaults to /cpu:0) 


v3 = tf.Variable(3.0) # pinned to /job:ps/task:0 (+ defaults to /cpu:0) 


s = v1 + v2 # pinned to /job:worker (+ defaults to task:0/gpu:0) 
with tf.device("/gpu:1"): 
pl =2*s # pinned to /job:worker/gpu:1 (+ defaults to /task:0) 
with tf.device("/task:1"): 


p2=3%*s # pinned to /job:worker/task:1/gpu:1 


W 这 个 例子 假设 参数 服务 器 是 仅 CPU 因为 通常 情况 下 ， 它 们 仅 需 
存储 和 传递 参数 ， 而 不 需要 执行 密集 计算 。 
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当 使 用 一 个 简单 本 地 会 话 ( 非 分 布 式 ) 时 ， 每 一 个 变量 的 状态 都 是 由 
会 话 本 身 管理 的 ;会 话 一 旦 结束 ， 所 有 变量 值 都 会 丢 挥 。 而且， 多 个 
本 地 会 话 没 办 法 共享 任何 状态 ， 即 使 它们 都 在 运行 同一 个 图 ; 每 一 个 
会 话 都 有 自己 所 有 变量 的 副本 (第 9 章 讨论 过 ) 。 对 比 而 言 ， 当 使 用 分 
布 式 会 话 时 ， 变 量 状态 由 集群 自己 的 资源 容 妖 管理 ， 而 非 会 话 。 所 以 
如 采 你 用 一 个 客户 端 会 话 创建 一 个 名 为 x 的 变量 ， 它 会 自动 对 同一 集群 


的 其 他 会 话 可 用 《即使 两 个 会 话 连接 至 不 同 的 服务 器 ) 。 来 看 一 下 下 
面 的 客户 闻 代 码 : 

# simple_client.py 

import tensorflow as tf 


import sys 


x = tf.Variable(0.0, name="x") 


increment_x = tf.assign(x, x + 1) 


with tf.Session(sys.argv[1]) as sess: 
if sys.argv[2: ]==["init"]: 
sess.run(x.initializer) 
sess.run(increment_x) 


print(x.eval()) 


假设 你 有 一 个 局 动 的 TensorFlow 集 群 ， 运 行 在 机 器 A 和 机 器 B 上 ， 端 口 
号 为 2222。 可 以 局 动 客户 端 ， 并 且 开 启 一 个 和 机 器 A 的 会 话 ， 用 下 面 的 
命令 让 它 初 始 化 一 个 参数 ， 增 加 并 输出 它 的 值 : 


$ python3 simple_client.py grpc://machine-a.example.com:2222 init 


MRH RAM aCe Pin, SER Ela BAMA art, HAA 
奇 般 地 复 用 同一 个 变量 x (这 一 次 我 们 不 会 告诉 服务 器 初始 化 这 个 变 


量 ) : 


$ python3 simple_client.py grpc://machine-b.example.com: 2222 


2.0 
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问题 ， 但 如 果 你 想 要 在 同一 个 集群 里 运行 一 个 完全 独立 的 运算 ， 那 么 
你 束 要 非 间 小心， 不 要 误 用 同一 个 变量 名 。 确保 不 会 出 现 名 称 冲 突 的 
一 种 方式 是 将 所 有 构造 阶段 都 包 侣 在 变量 作用 域内 ， 并 给 每 一 个 运算 
使 用 唯一 的 名 称 ， 举 个 例子 : 


with tf.variable_scope("my_problem_1i"): 


[...] # Construction phase of problem 1 


EEIN Te HAAR: 


with tf.container("my_problem_1"): 


[...] # Construction phase of problem 1 


它 会 使 用 针对 问题 1 的 一 个 容器 ， 而 非 默认 的 《名字 是 一 个 空 字 符 
FB?) 。 一 个 优点 是 变量 名 可 以 保持 精简 。 男 一 个 优点 是 可 以 很 方便 
地 重 置 一 个 已 经 命名 过 的 容 絮 。 举 个 例子 ， 下 面 的 命令 可 以 连接 到 机 
右 A 的 服务 器 ， 并 且 将 容器 名 重 置 为 "my_problem_1"， 同 时 释放 这 个 容 
器 之 前 使 用 过 的 所 有 资源 〈 并 且 关 闭 服 务 器 上 所 有 会 话 ) 。 这 个 容器 
管理 的 任何 变量 都 必须 重新 初始 化 才 可 以 再 次 使 用 : 


tf.Session.reset("grpc://machine-a.example.com:2222", ["my_problem_i"] ) 


资源 容器 让 灵活 跨 会 话 共享 变量 变 得 很 容易 。 举 个 例子 ， 图 12-7 给 出 了 
在 同一 个 集群 运行 不 同 图 的 四 个 客户 端 ， 但 共享 一 些 变量 。 客 户 端 A 和 
客户 端 B 共 享 同一 个 由 默认 容器 管理 的 变量 x， 客 户 端 C 和 客户 端 D 则 共 
享 由 名 为 "my_problem_1" 的 容器 管理 的 名 为 x 的 变量 。 注 意 ， 客 户 端 C 
甚至 使 用 来 自 两 个 容器 的 变量 。 


"" (default) 
X=1.0,y=3.1 


"my problem 1" 
x= 3.0, 2= 42 


图 12-7: 资源 容器 


ee eee 
= Ilo 


使 用 TensorFlow 队 列 进 行 异 步 通信 
队列 是 另 一 种 在 多 会 话 之 间 交 换 数 据 的 好 方法 ;一 个 常用 的 例子 是 ， 


让 一 个 客户 端 构造 一 个 加 载 训练 数据 并 将 其 存 入 一 个 队列 的 图 ， 同 时 
另 一 个 客户 端 构建 一 个 从 队列 里 读 取 数据 并 且 训练 模型 的 图 ( 见 图 12- 


8) 。 这 样 可 以 有 效 提 高 训练 速度 ， 因 为 训练 操作 不 用 在 每 一 步 都 等 待 
下 一 个 小 批量 * 


图 12-8: 用 队列 异步 加 载 训练 数据 


TensorFlow 提 供 了 各 种 类 型 的 队列 。 最 简单 的 是 先进 先 出 (FIFO) BA 
列 。 例 如 ， 以 下 代码 构建 了 一 个 可 以 存储 多 达 10 个 张 量 的 FIFO 队 列 ， 
其 中 包含 两 个 浮 点 数 : 

q = tf.FIFOQueue(capacity=10, dtypes=[tf.float32], shapes=[[2]], 


name="q", shared_name="shared_q") 


on 要 跨 会 话 共享 变量 ， 只 需要 在 两 端 指定 相同 的 名 称 和 容器 即 可 。 
对 于 队列 ， TensorFlow 使 用 shared_name 属 性 而 不 是 name 所 以 一 定 要 指 
定 它 〈 尽 管 它 和 name 一 样 ) 。 同 样 ， 要 使 用 相同 的 容器 。 


数据 入 队 

要 将 数据 放 入 一 个 队列 ， 需 要 创建 enqueue 操 作 。 例 如 ， 下 面 的 代码 将 
三 个 训练 实例 存 入 队列 : 

# training_data_loader.py 


import tensorflow as tf 


q=[...] 
training_instance = tf.placeholder(tf.float32, shape=(2)) 


enqueue = q.enqueue([training_instance] ) 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 
sess.run(enqueue, feed_dict={training_instance: [1., 2.]}) 
sess.run(enqueue, feed_dict={training_instance: [3., 4.]}) 


sess.run(enqueue, feed_dict={training_instance: [5., 6.]}) 


nee ee ， 可 以 用 enqueue_many 损 作 一 次 使 几 个 实例 入 


training_instances = tf.placeholder(tf.float32, shape=(None, 2)) 


enqueue_many = q.enqueue([training_instances]) 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 
sess.run(enqueue_many, 


feed_dict={training_instances: [[1., 2.], [3., 4.], [5., 6.]]}) 


两 个 例子 都 使 三 个 同样 的 张 量 入 队 。 
数据 出 队 
要 从 男 一 端 将 实例 从 队列 中 取出 来 ， 需 要 使 用 dequeue 操 作 : 


# trainer.py 


import tensorflow as tf 


q = [...] 


dequeue = q.dequeue() 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 


print(sess.run(dequeue)) # [1., 2.] 


print(sess.run(dequeue)) # [3., 4.] 


print(sess.run(dequeue)) # [5., 6.] 


通 第 你 会 布 望 能 一 次 取出 整个 小 批量 ， 而 不 是 一 次 只 取 一 个 实例 。 要 
做 到 批量 取出 ， 需 要 使 用 dequeue_many 操 作 ， 并 定义 好 小 批量 的 大 


batch_size = 2 


dequeue_mini_batch= q.dequeue_many(batch_size) 


with tf.Session("grpc://machine-a.example.com:2222") as sess: 


print(sess.run(dequeue_mini_batch)) # [[1., 2.], [4., 5.]] 


print(sess.run(dequeue_mini_batch)) # blocked waiting for another instance 


当 队 列 满 时 ，enqueue 操 作 会 停 下 来 ， 直 到 有 数据 通过 dequeue 操 作 取 

出 。 同 样 ， 当 队列 空 (或 者 当 使 用 dequeue_many () 操作 时 ， 数 据 量 
小 于 小 批量 大 小 ) 时 ，dequeue 操 作 会 停 下 来 ， 直 到 有 足够 的 数据 通过 
enqueue 操 作 存 入 。 


元 组 队列 
队列 中 每 一 项 都 可 以 是 一 个 张 量 (不 同 的 类 型 和 形状 ) 元 组 ， 而 非 一 


个 单独 的 张 量 。 举 个 例子 ， 下 面 的 队列 存储 了 一 些 张 量 对 ， 一 个 是 类 
型 int32 和 shape () ， 男 一 个 是 类 型 float32 和 shape[3，2]: 


q = tf.FIFOQueue(capacity=10, dtypes=[tf.int32, tf.float32], shapes=[[],[3,2]], 


name="q", shared_name="sShared_q") 


enqueue 操 作 必 须 赋 值 张 量 对 (注意 ， 每 一 对 只 代表 队列 中 一 个 元 
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a = tf.placeholder(tf.int32, shape=()) 
b = tf.placeholder(tf.float32, shape=(3, 2)) 


enqueue = q.enqueue((a, b)) 


with tf.Session([...]) as sess: 
sess.run(enqueue, feed_dict={a: 10, b:[[1., 2.], [3., 4.], [5., 6.]]}) 
sess.run(enqueue, feed_dict={a: 11, b:[[2., 4.], [6., 8.], [0., 2.]]}) 


sess.run(enqueue, feed_dict={a: 12, b:[[3., 6.], [9., 2.], [5., 8.]]}) 


在 男 一 端 ，dequeue () 方法 同时 构造 一 对 出 队 操作 : 


dequeue_a, dequeue_b = q.dequeue() 


通常 情况 下 ， 要 一 起 运行 这 些 操作 : 


with tf.Session([...]) as sess: 
a_val, b_val = sess.run([dequeue_a, dequeue_b] ) 
print(a_val) # 10 


print(b_val) # [[1., 2.], [3., 4.], [5., 6-]] 


从、 如 果 在 队列 上 运行 dequeue_a， 它 就 会 出 队 一 对 并 且 只 返回 第 一 个 
元 素 ; 第 二 个 元 素 会 被 丢掉 (同样 ， 如 果 在 队列 上 运行 dequeue_ b, $% 
一 个 元 素 会 丢掉 ) 。 


dequeue_many () 方法 也 会 返回 一 对 操作 : 


batch_size = 2 


dequeue_as, dequeue_bs = q.dequeue_many(batch_size) 
你 可 以 根据 你 的 需要 来 使 用 : 


with tf.Session([...]) as sess: 
a, b = sess.run([dequeue_a, dequeue_b]) 
print(a) # [10, 11] 
print(b) # [[[1., 2.], [3., 4.], [5., 6-]], [[2., 4.], [6., 8.], [0., 2.]]] 


a, b = sess.run([dequeue_a, dequeue_b]) # blocked waiting for another pair 


关闭 队列 


人 


close_q = q.close() 


with tf.Session([...]) as sess: 


[...] 


sess.run(close_q) 


顺序 执行 anqueue 或 者 enqueue_many 操 作 就 会 抛 出 异常 。 默 认 情 况 下 ， 
任何 待 处 理 的 入 队 请 求 都 会 被 执行 ， 除 非 你 调用 q.close 


(cancel_pending_enqueues=True) ° 


顺序 执行 dequeue 或 dequeue_many 操 作 ， 只 要 队列 里 有 数据 就 会 一 直 成 

功 ， 但 当 队 列 中 元 素 不 足 时 束 会 失败 。 如 有 果 你 使 用 dequeue_many 探 作 

并 且 队 列 中 还 有 一 些 实 例 ， 但 是 个 数 少 于 小 批量 大 小 ， 则 将 被 丢 痉 。 

你 可 能 会 偏 回 使 用 dequeue_up_- tobe PARTE 该 操作 和 dequeue_many 

E 少 于 batch_size 的 实例 时 ， 它 会 将 这 些 实 
A 


RandomShuffleQueue 


TensorFlow 还 文 持 更 多 AE 型 的 队列 ， 包括 RandomShuftleQueue， ES 
FIFOQueue 用 法 一 致 ， 只 是 出 队 的 顺序 是 随机 的 。 它 可 以 用 于 在 训练 过 
程 中 每 一 个 全 数据 集 洗 牌 训练 实例 。 首 先 ， 先 创建 一 个 队列 : 


q = tf.RandomShuffleQueue(capacity=50, min_after_dequeue=10, 
dtypes=[tf.float32], shapes=[()], 


name="q", shared_name="Shared_q") 


min_after_dequeue 指 定 了 在 出 队 操作 后 必须 留 在 队列 里 的 张 量 最 小 值 。 
这 样 就 确保 队列 中 有 足够 的 实例 具有 足够 的 随机 性 (一旦 队列 关闭 ， 
min_after_dequeue 限 制 会 被 名 上 略 ) 。 限 制 假设 你 入 队 22 个 数据 ( 浮 点 1. 
到 22.) 。 下 面 告诉 你 如 何 将 它们 出 队 : 


dequeue = q.dequeue_many(5) 


with tf.Session([...]) as sess: 
print(sess.run(dequeue)) # [ 20. 15. 11. 12. 4.] (17 items left) 
print(sess.run(dequeue)) # [ 5. 13. 6. ©. 17.) (12 items left) 


print(sess.run(dequeue)) # 12 - 5 < 10: blocked waiting for 3 more instance 


PaddingFifoQueue 


PaddingFIFOQueue 也 和 FIFOQueue 一 样 ， 除 了 它 接受 各 种 维度 〈 但 是 固 
定 等 级 ) 可 变 大 小 的 张 量 。 如 果 你 使 用 dequeue_many 或 dequeue_up_to 
操作 其 进行 出 队 时 ， 每 个 张 量 将 按照 每 个 可 变 维度 用 零 填充 ， 使 其 与 
小 批量 中 最 大 张 量 的 大 小 相同 。 举 个 例子 ， 你 可 以 入 队 任 意 大 小 的 二 
维 张 量 (FERS) : 


q = tf.PaddingFIFOQueue(capacity=50, dtypes=[tf.float32], shapes=[(None, None)] 


name="q", shared_name="Shared_q") 


v = tf.placeholder(tf.float32, shape=(None, None) ) 


enqueue = q.enqueue([v]) 


with tf.Session([...]) as sess: 


sess.run(enqueue, feed_dict={v: [[1., 2.], [3., 4.], [5., 6.]]}) # 3x2 


sess.run(enqueue, feed _dict={v: [[1.]]}) # 1x1 


sess.run(enqueue, feed_dict={v: [[7., 8., 9., 5.], [6., 7., 8., 9.]]}) # 2x4 


如 果 我 们 一 次 出 队 一 个 张 量 ， 我 们 会 获得 和 入 队 一 模 一 样 的 张 量 。 但 
是 如 果 我 们 一 次 出 队 好 几 个 (用 dequeue_many () 或 dequeue_up_to 

() ) ， 队 列 就 会 自动 适当 地 填充 张 量 。 举 个 例子 ， 如 果 我 们 一 次 出 
队 三 个 张 量 ， 那 么 所 有 张 量 都 会 被 零 填 充 为 3x4 的 张 量 ， 因 为 第 一 维度 
最 大 是 3 (第 一 个 元 素 ) ， 第 二 维度 最 大 是 4 (第 三 个 元 素 ) : 

>>> q= [...] 

>>> dequeue = q.dequeue_many(3) 

>>> with tf.Session([...]) as sess: 


print(sess.run(dequeue) ) 


[[[ 1. 2. 0. 9.] 


0 比如 单词 序列 〈 见 
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我 们 先 停 一 下 到 目前 为 止 我 们 已 经 学 习 了 跨 设备 和 服务 器 分 布 计 
算 ， 跨 会 话 共享 变量 ， 以 及 利用 队列 异步 通信 。 在 开始 训练 神经 网 络 
之 前 ， 我 们 还 有 最 后 一 个 话题 需要 讨论 : 如何 有 效 地 加 载 训练 数据 。 


直接 从 图 中 加 载 数 据 

到 目前 为 止 ， 我 们 假设 客户 会 加 载 训练 数据 ， 并 使 用 占 位 符 将 其 提供 
给 集群 。 这 样 很 和 滑 单 ， 对 于 简单 的 设置 也 委 效 ， 但 是 它 不 够 有 效 ， 
为 它 传输 了 训练 数据 好 几 次 : 

1. 从 文件 系统 到 客户 端 。 

2. 从 客户 端 到 master 任 务 。 

3. 可 能 还 有 从 master 任 务 到 其 他 需要 数据 的 任务 。 

如 果 你 有 几 个 客户 端 用 相同 数据 〈 比 如 ， 对 于 超 参 数 调 整 ) 来 训练 各 
种 神经 网 络 ， 情 况 则 会 变 得 很 糟 : 如 果 每 个 客户 端 同时 加 载 数 据 ， 可 
能 会 出 现 文 件 服务 区 饱和 或 网 络 融 宽 饱 和 。 

预 加 载 数据 到 一 个 变量 

对 于 可 以 适应 内 存 的 数据 集 ， 一 个 比较 好 的 方式 是 一 次 性 加 载 训练 数 
据 并 赋值 给 一 个 变量 ， 然 后 在 图 中 束 只 使 用 这 个 变量 。 这 被 称 为 预 加 
载 训练 集 。 使 用 这 个 方法 ， 数 据 只 会 从 客户 端 到 集群 被 传输 一 次 (但 


征 根据 哪个 任务 需要 它 ， 它 仍然 可 能 需要 从 任务 移动 到 操作 ) 。 下 面 
的 代码 告诉 你 如 何 将 整个 训练 集 加 载 到 变量 中 去 : 


training_set_init = tf.placeholder(tf.float32, shape=(None, n_features) ) 


training_set = tf.Variable(training_set_init, trainable=False, collections=[], 


name="training_set") 


with tf.Session([...]) as sess: 
data = [...] # load the training data from the datastore 


sess.run(training_set.initializer, feed_dict={training_set_init: data}) 


UY i trainable=False, LACED ARS SHAS & o [AA VIX 
设置 collections=[] 确 保 这 个 变量 不 会 加 入 
GraphKeys.GLOBAL_ VARIABLES 集 合 ， 该 集合 是 用 于 保存 和 还 原 检 查 
点 的 。 


LN 这 个 例子 假设 你 的 训练 集 〈 包 括 标签 ) 都 只 含有 float32 值 。 如 果 不 
征 这 样 ， 你 需要 给 每 一 种 类 型 设置 一 个 变量 。 


从 图 中 直接 读 取 训练 数据 

如 果 训 练 集 不 适应 内 存 ， 一 个 好 的 解决 方案 是 用 reader 探 作 : 它们 是 可 
以 直接 从 文件 系统 中 读 取 数据 的 操作 。 用 这 个 方法 训练 数据 将 不 再 需 
要 在 客户 端 之 间 流 动 。TensorFlow 给 readers 提 供 了 丰富 的 文件 格式 : 
‘CSV 

. 定 长 二 进 制 记录 

.TensorFlow 目 己 的 TFRecords 格 式 ， 基 于 协议 缓冲 区 

我 们 来 看 一 个 简单 的 例子 ， 从 CSV 文 件 中 读 取 (对 于 其 他 格式 ， 请 参 
见 API 文 档 ) 。 假 设 你 有 一 个 包含 训练 实例 的 名 为 my_test.csv 的 文件 ， 


并 且 你 希望 创建 操作 来 读 取 它 。 假 设 它 具 有 两 个 浮 点 特征 x1 和 x2， 一 
个 整 型 target 代 表 二 进 制 类 ， 如 下 所 示 : 


x1, x2, target 


1 2. 0 
4 5 工 
7 0 


首先 ， 创 建 一 个 TextLineReader 来 读 取 这 个 文件 。 一 个 TextLineReader 打 
开 一 个 文件 〈 一 旦 我 们 告知 它 打 开 哪 个 ) 并 逐 行 读 取 。 这 是 一 个 有 状 
态 的 操作 ， 类 似 变 量 和 队列 : 它 保 持 其 在 多 个 运行 图 中 的 状态 ， 跟 趴 
当前 正在 读 取 的 文件 及 其 当前 在 文件 中 所 处 的 位 置 。 


reader = tf.TextLineReader(skip_header_lines=1) 


接 下 来 ， 我 们 创建 一 个 队列 ，reader 将 从 下 一 步 中 知道 从 哪个 文件 读 
取 。 同 时 再 创建 一 个 入 队 操 作 和 一 个 占 位 符 ， 用 来 存储 任何 我 们 需要 
的 文件 名 ， 还 要 创建 一 个 操作 ， 一 旦 我 们 没有 需要 读 取 的 数据 就 用 它 
来 天 闭 队列 : 

filename_queue = tf.FIFOQueue(capacity=10, dtypes=[tf.string], shapes=[()]) 

filename = tf.placeholder(tf.string) 

enqueue_filename = filename_queue.enqueue( [filename] ) 

close_filename_queue = filename_queue.close() 
现在 我 们 可 以 创建 read 操 作 ， 一 次 读 取 一 条 记录 ( 即 一 行 ) 省 区 国王 :小 


键 值 对 。 键 是 记录 的 唯一 标识 符 一 一 一 个 由 文件 名 、 冒 号 和 行 数 组 成 
的 字符 串 ， 值 只 是 包含 该 行内 容 的 字符 串 : 


key, value = reader.read(filename_queue) 


我 们 可 以 逐 行 读 取 文件 中 所 有 的 内 容 ! 但 是 并 没有 完成 一 我们 需要 
解析 这 个 字符 吝 来 获得 特征 和 目标 : 


x1, x2, target = tf.decode_csv(value, record_defaults=[[-1.], [-1.], [-1]]) 


features = tf.stack([x1, x2]) 


第 一 行 用 TensorFlow 的 CSV 解 析 屡 从 当前 行 中 取 值 。 当 缺少 一 个 字段 
(这 个 例子 中 第 三 个 训练 实例 的 x2 特 征 ， 时 会 使 用 默认 值 ， 并 且 它 们 
还 用 来 确认 每 一 字段 的 类 型 (本 例 中 为 两 个 浮 点 型 和 1 个 整 型 ) o 


最 后 ， 我 们 可 以 将 这 个 训练 实例 和 它 的 对 象 存 入 一 个 

RandomShuffleQueue， 这 样 就 可 以 共享 训练 图 ( 它 也 可 以 从 队列 中 取 

a ， 同 时 我 们 会 创建 一 个 操作 在 结束 入 队 实例 之 后 关闭 
I}; 


instance_queue = tf.RandomShuffleQueue( 

capacity=10, min_after_dequeue=2, 

dtypes=[tf.float32, tf.int32], shapes=[[2],[]], 

name="instance_q", shared_name="Shared_instance_q") 
enqueue_instance = instance_queue.enqueue([features, target]) 
close_instance_queue = instance_queue.close() 


读 取 一 个 文件 真 的 是 一 个 不 小 的 工作 。 男 外 我 们 只 是 创建 了 图 ， 所 以 
现在 需要 运行 它 : 


with tf.Session([...]) as sess: 

sess.run(enqueue_filename, feed_dict={filename: "my_test.csv"}) 
sess.run(close_filename_queue) 
try: 

while True: 

sess.run(enqueue_instance) 

except tf.errors.OutOfRangeError as ex: 

pass # no more records in the current file and no more files to read 


sess.run(close_instance_queue) 


首先 我 们 打开 一 个 会 话 ， 然 后 入 队 一 个 文件 名 "my_test.csv"， 并 且 在 需 
要 入 队 别 的 文件 名 时 立刻 关闭 这 个 队列 。 然 后 运行 一 个 无 限 循环 依次 
入 队 实 例 。enqueue_instance 依 顿 于 reader 读 取 下 一 行 ， 所 以 每 一 次 友 代 
都 会 读 取 一 个 狐 的 记录 直到 文件 最 后 一 行 。 在 那 一 刻 它 试图 读 取 文 件 
队列 来 获取 下 一 个 要 读 取 的 文件 ， 但 是 因为 队列 已 经 关闭 ， 所 以 会 抛 
出 一 个 OutOfRangeError 异 常 (如 果 我 们 没有 关闭 队列 ， 它 就 会 保持 阻 
塞 状态 直到 我 们 存 入 另 一 个 文件 名 或 关闭 队列 ) 。 最 后 ， 我 们 关闭 实 
例 队 列 ， 从 它 出 队 的 训练 操作 不 会 一 直 被 阻塞 。 图 12-9 总 结 了 我 们 所 学 
的 东西 ; 它 给 出 了 从 一 组 CSV 文 件 中 读 取 训练 实例 的 典型 图 。 


在 训练 图 中 ， 你 需要 创建 共享 实例 队列 并 从 中 出 队 小 批量 : 


instance_queue = tf.RandomShuffleQueue([...], shared name="shared instance_q") 


mini_batch_instances, mini_batch_targets = instance_queue.dequeue_up_to(2) 


[...] # use the mini_batch instances and targets to build the training graph 


training_op = 


[...] 


with tf.Session([...]) as sess: 


try: 


for step in range(max_steps): 


sess.run(training_op) 


except tf. 


errors.OutOfRangeError as ex: 


pass # no more training instances 


在 这 个 例子 中 ， 
含 最 后 一 个 实例 。 


小 批量 会 包 


实例 队列 


"a,csv" 文件 名 队列 提前 过 程 


a.csv Dnsy COSV 


图 12-9: 从 CSV 文 件 中 读 取 训练 实例 
第 一 个 小 批量 会 包含 CSV 文 件 的 头 两 个 实例 ， 第 二 个 
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这 个 架构 只 使 用 一 个 线程 读 取 记 孙 和 将 其 存 入 实例 队列 。 通 过 使 用 多 
个 reader 同 时 从 多 个 文件 用 多 线程 来 读 取 ， 可 以 获得 更 蜗 的 否 吐 量 。 我 
们 来 看 如 何 实 现 。 


使 用 协调 器 和 QueueRunner 的 多 线程 读 取 器 

要 满足 多 线程 同时 读 取 实例 ， 你 可 以 创建 Python 线程 (用 threading 模 
H) 并 自行 管理 。 当 然 ，TensorFlow 也 提供 了 一 些 工 具 ， 如 Coordinator 
类 和 QueueRunner 类 可 以 帮助 你 让 这 个 过 程 更 容易 一 些 。 


Coordinator 是 一 个 非常 简单 的 对 象 ， 它 唯一 的 目的 就 是 协调 停止 多 个 线 
程 。 首 先 ， 创 建 一 个 Coordinator: 


coord = tf.train.Coordinator() 


接着 你 把 它 传 给 所 有 需要 联合 停止 的 线程 ， 并且 它 们 的 主 循 环 相似 : 


while not coord.should_stop(): 


[...] # do something 


任何 线程 都 可 以 通过 调用 Coordinator 的 request_stop () 方法 来 停止 每 
个 线程 : 


coord.request_stop() 


每 个 线程 在 完成 它 当 前 迭代 后 都 会 停止 。 你 可 以 通过 调用 Coordinator 的 
O 方法 来 等 待 所 有 线程 结束 ，join () 方法 接受 线程 数组 作为 参 


coord. join(list_of_threads) 


QueueRunner 会 开局 多 线程 重复 进行 入 队 操作 ， 以 最 快速 度 将 一 个 队列 
填 满 。 当 该 队列 关闭 时 ， 下 一 个 试图 继续 同 队 列 里 插入 元 系 的 线程 将 
收 到 一 个 名 为 OutOfRangeError 的 错误 ， 于 是 该 线程 会 捕获 此 错误 并 立 
即 通 知 其 他 线程 停止 使 用 Coordinator。 下 面 的 代码 展示 了 如 何 使 用 
QueueRunner 来 用 5 个 线程 同时 读 取 实例 并 将 它们 放 入 一 个 实例 队列 。 


[...] # same construction phase as earlier 


queue_runner = tf.train.QueueRunner(instance_queue, [enqueue_instance] * 5) 


with tf.Session() as sess: 
sess.run(enqueue_filename, feed_dict={filename: "my_test.csv"}) 
sess.run(close_filename_queue) 
coord = tf.train.Coordinator() 
enqueue_threads = queue_runner.create_threads(sess, coord=coord, start=True) 
第 一 行 创 建 了 QueueRunner 告 诉 它 运行 五 个 线程 ， 并 且 都 重复 执行 
enqueue_instance 操 作 。 然 后 开启 一 个 会 话 ， 并 入 队 需 要 读 取 的 文件 名 
(这 个 例子 里 是 "my_test.csv") 。 接 着 ， 创 建 一 个 Coordinator， 
QueueRunner 会 像 刚 刚 提 到 的 那样 调用 它 来 停止 线程 。 最 后 ， 告 诉 
QueueRunner 创 建 并 开局 线程 。 这 些 线程 会 谈 取 所 有 训练 实例 并 将 它们 
存 入 实例 队列 里 ， 之 后 它们 也 会 优雅 地 结束 工作 。 


这 样 会 比 之 前 效率 更 高 一 些 ， 但 是 我 们 仍然 可 以 做 得 更 好 。 当 前 所 有 
的 线程 都 从 同一 文件 里 读 取 。 换 种 方式 ， 我 们 可 以 通过 创建 多 个 reader 


( 见 图 12-10) ， 然 后 让 它们 同时 读 取 多 个 文件 (假设 训练 数据 被 分 片 
在 不 同 的 CSV 文 件 里 ) 。 


TextFileReader 


TextFileReader 


TextFileReader 


a.asv b.csv nnsV 


图 12-10: 同时 读 取 多 文件 
为 了 实现 这 个 功能 ， 我 们 需要 写 一 个 函数 ， 创 建 一 个 reader 和 一 些 下 
点 ， 来 完成 读 取 和 将 实例 存 入 实例 队列 的 工作 : 
def read_and_push_instance(filename_queue, instance_queue) : 
reader = tf.TextLineReader(skip_header_lines=1) 
key, value = reader.read(filename_queue) 
x1, x2, target = tf.decode_csv(value, record_defaults=[[-1.], [-1.], [-1]]) 
features = tf.stack([x1, x2]) 


enqueue_instance = instance_queue.enqueue([features, target]) 


return enqueue_instance 


接着 定义 队列 : 


filename_queue = tf.FIFOQueue(capacity=10, dtypes=[tf.string], shapes=[()]) 
filename = tf.placeholder(tf.string) 
enqueue_filename = filename_queue.enqueue( [filename] ) 


close_filename_queue = filename_queue.close() 


instance_queue = tf.RandomShuffleQueue([...]) 


最 后 我 们 创建 QueueRunner， 但 这 一 次 我 们 传 给 它 一 个 不 同 入 队 操作 的 
列表 。 每 一 个 操作 都 会 使 用 一 个 不 同 的 reader， 从 而 保证 线程 会 同时 读 
取 不 同 的 文件 : 
read_and_enqueue_ops = [ 
read_and_push_instance(filename_queue, instance_queue) 


for i in range(5)] 


queue_runner = tf.train.QueueRunner(instance_queue, read_and_enqueue_ops) 


执行 阶段 和 之 前 一 样 : 首先 将 要 读 取 的 文件 名 存 起 来 ， 接 着 创建 
Coordinator 来 创建 并 启动 QueueRunner 线 程 。 这 一 次 所 有 的 线程 都 会 同 
时 读 取 不 同 的 文件 ， 直 到 读 取 完毕 ， 接 着 ，QueueRunner 会 关闭 实例 队 
列 ， 以 便 其 他 操作 在 从 中 取 数 据 时 不 会 被 阻塞 。 


其 他 方便 的 功能 


TensorFlow 还 提供 了 一 些 方便 的 功能 ， 以 便 在 读 取 训 练 实例 时 催化 一 些 
常用 任务 。 我 们 会 介绍 几 个 ( 详 见 API 文 档 ) 


string_input_producer () 采用 一 个 包含 文件 名 列表 的 一 维 张 量 ， 创 建 
一 个 线程 一 次 存 入 一 个 文件 名 到 文件 名 队列 中 ， 然 后 天 闭 队 列 。 如 果 
你 指定 了 一 些 全 数据 集 ， 它 会 在 天 团队 列 之 前 在 每 个 全 数据 集 轮 询 一 
次 文件 名 。 默 认 情 况 下 ， 它 会 在 每 个 全 数据 集 处 理 文件 名 。 它 创建 一 
个 QueueRunner 来 管理 它 的 线程 ， 并 且 把 它 加 在 
GraphKeys.QUEUE_RUNNERS 集 合 中 。 要 在 集合 中 开启 每 一 个 
QueueRunner， 你 可 以 调用 tf.train.start_queue_runners () 方法 。 注 意 如 
果 你 起 了 局 动 QueueRunner， 文 件 名 队列 会 以 空 值 打开 ， 同 时 你 的 
reader 2 #% — EBA o 


还 有 一 些 其 他 的 producer 方 法 ， 同 样 是 创建 一 个 队列 和 一 个 对 应 的 
QueueRunner 来 运行 入 队 操作 (比如 input_producer () 
range_input_producer () 和 slice input producer () ) ° 


shuffle_ batch () 方法 采用 了 张 量 列表 (如 [features，target]) 、 并 且 创 
建 了 : 


一 个 RandomShuffleQueue 


一 个 QueueRunner 将 张 量 存 入 队列 (加 入 
GraphKeys.QUEUE_RUNNERS 集 合 ) 


一 个 dequeue_many 控 作 从 队列 中 取出 一 个 小 批量 
这 使 得 在 独立 进程 中 管理 多 线程 输入 管道 存 入 队列 和 训练 管道 从 队列 


中 读 取 小 批量 都 变 得 很 方便 。 提 供 类 似 功能 的 方法 还 有 batch O ` 
batch_join () 和 shuffle batch join () ° 


现在 你 有 了 所 有 需要 的 工具 ， 可 以 在 TensorFlow 的 集群 上 多 个 设备 和 服 
务 器 间 进 行 高 效 训练 和 运行 神经 网 络 了 。 我 们 来 看 看 你 都 学 到 了 什 
Ls: 


.使 用 多 GPU 设备 


设置 和 启动 一 个 TensorFlow 集 群 

` 跨 设备 和 服务 句 分 布 式 计算 

-利用 容器 跨 会 话 共享 变量 (及 其 他 状态 化 操作 ， 比 如 队列 和 reader) 
-利用 队列 异步 协调 多 图 工作 

-有效 利用 reader、 队 列 runner 和 协调 器 读 取 输 入 

现在 让 我 们 使 用 所 有 这 些 来 并 行 化 神经 网 络 ! 


[1] 甚至 可 以 在 同一 个 进程 中 开局 多 个 任务 。 在 测 弃 中 可 能 有 用 ， 但 产 
品 环境 并 不 推荐 。 


[2] 这 是 Google 内 部 Stubby 服 务 的 下 一 个 版 本 ，Google 已 经 成 功 使 用 了 
十 多 年 ， 详 见 http:Wgrpc.io/。 


在 TensorFlow 集 群 上 并 行 化 神经 网 络 

本 六 首先 关注 将 多 个 神经 网 络 分 别 放 置 在 不 同 的 设备 上 的 情况 下 ， 如 
何 并 行 化 儿 个 神经 网 络 。 接 着 会 研究 更 复杂 的 问题 ， 即 训练 一 个 跨 设 
备 和 服务 器 的 单个 神经 网 络 。 

一 台 设 备 一 个 神经 网 络 


在 TensorFlow 集 群 上 训练 和 运行 神经 网 络 最 简单 的 方法 就 是 在 单个 机 器 
上 使 用 和 在 单个 设备 完全 同样 的 代码 ， 并 在 创建 会 话 时 指定 主 服务 器 
的 地 址 。 婚 是 这 样 你 的 代码 会 在 服务 万 默 认 的 设备 上 运行 。 你 可 以 将 
a MEERA, ORBEA] LARS TAB ATI 


通过 并 行 几 个 服务 端 会 话 〈 在 不 同 线程 或 不 同 进程 中 ) ， 将 它们 连接 
到 不 同 服务 器 ， 并 且 将 其 配置 到 不 同 设备 ， 你 就 可 以 方便 地 在 集群 中 

( 见 图 12-11) 跨 设备 跨 服 务 器 来 并 行 训 练 或 者 运行 多 个 神经 网 络 。 加 
速 几乎 是 线性 的 。[ 册 在 50 个 有 2 个 GPU 的 服务 器 上 训练 100 个 神经 网 
络 ， 不 会 比 在 1 个 GPU 上 训练 1 个 神经 网 络 所 花费 的 时 间 长 。 
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图 12-11: 在 一 个 设备 上 训练 一 个 神经 网 络 


这 个 方案 对 微调 超 参 数 非常 完美 .集群 中 的 每 一 个 设备 都 会 用 其 自己 
的 超 参 数 训 练 一 个 不 同 的 模型 。 你 所 拥有 的 计算 能 力 越 大 ， 你 可 以 探 
ANE QUE BLK ° 


如 果 你 托管 一 个 接收 大 量 每 秒 查 询 数 (QPS) 的 网 络 服务 ， 并 且 对 于 每 
一 次 查询 你 都 需要 神经 网 络 做 出 预测 ， 那 么 这 种 方案 也 会 工作 得 非常 
好 。 简 单 地 在 集群 中 所 有 设备 上 复制 仲 经 网 络 ， 并 在 所 有 设备 上 进行 
查询 。 通 过 增加 服务 器 ， 你 可 以 处 理 无 限 数量 的 QPS (然而 ， 这 并 不 会 
eee 间 ， 因 为 它 仍然 需要 等 待 神经 网 络 进行 预 

测 ) 。 


` 男 一 种 方案 是 用 TensorFlow Serving 来 服务 你 的 神经 网 络 。 这 是 一 个 
开源 系统 ， 由 Google 在 2016 年 2 月 发 布 ， 旨 在 为 机 器 学 习 模型 (特别 是 
通过 TensorFlow 构 建 的 ) 提供 高 速率 的 查询 。 它 可 以 处 理 模 型 ， 所 以 你 
可 以 很 方便 地 在 产品 环境 中 部 署 新 的 网 络 版 本 ， 或 者 在 无 须 中 断 服务 


的 情况 下 测试 不 同 的 算法 ， 同 时 通过 添加 服务 器 来 承载 高 负载 。 详 见 


https://tensorflow.github.io/serving/ ° 
图 内 与 图 间 复 制 


你 还 可 以 通过 在 不 同 设备 上 部 署 神经 网 络 的 方法 来 针对 大 型 神经 网 络 
集合 体 进 行 并 行 训 练 (第 7 章 介绍 过 集合 体 ) 。 然 而 ， 一 旦 你 想 运 行 集 
合体 ， 你 需要 汇总 每 一 个 神经 网 络 的 预测 ， 从 而 得 到 集合 体 的 预测 ， 

而 这 些 工 作 需 要 协调 。 


有 两 种 主要 的 方法 来 处 理 神经 网 络 集合 体 〈 或 者 其 他 包含 大 量 独立 ; 
算 的 图 形 ) : 


-你 可 以 创建 一 个 大 图 ， 包 含 每 一 个 神经 网 络 ， 分 别 分 配 在 不 同 的 设备 
上 ， 加 上 从 所 有 神经 网 络 汇总 的 独立 预测 所 需 的 计算 \ 见 图 12-12) ° 
之 后 你 只 需 在 集群 中 的 任 一 服务 器 上 创建 一 个 会 话 并 让 其 负责 所 有 事 
A 《包括 在 汇总 所 有 所 测 之 前 所 进行 的 等 待 》。 这 个 方法 叫 作 图 内 找 
W o 
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图 12-12: 图 内 拷贝 


或者， 你 可 以 为 每 一 个 神经 网 络 创建 一 个 独立 的 图 ， 并 目 己 处 理 这 些 
图 之 间 的 同步 。 这 种 方法 成 为 图 间 拷 页 。 一 种 典型 的 实现 方式 是 利用 
队列 来 协调 这 些 图 的 操作 〈 见 图 12-13) 。 一 组 客户 端 处 理 一 个 神经 网 
络 ， 从 其 专用 输入 队列 进行 读 取 ， 且 写 入 其 专用 预测 队列 。 男 一 个 客 
户 病 负 责 读 取 输 入 和 将 其 存 入 所 有 输入 队列 (将 所 有 输入 复制 到 每 一 
个 队列 ) 。 最 后 一 个 客户 端 负 责 从 每 一 个 预测 队列 中 读 取 一 个 预测 并 
汇总 它们 来 生成 集合 体 的 预测 。 


图 12-13: ÆI I 
这 些 方法 各 有 优 缺 点 。 由 于 你 不 需要 管理 多 个 客户 端 和 队列 ， 因 此 ， 
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队 超时 ， 这 样 集合 体 就 不 会 因为 某 一 个 神经 网 络 客户 端 朋 溃 或 者 神经 


网 络 花 费 太 长 时 间 进 行 预测 而 出 销 。TensorFlow 在 通过 传 RunOptions 调 
Hru () 方法 时 可 以 设置 超时 ， 其 中 RunOptions 的 值 为 


timeout_in_ms: 


with tf.Session([...]) as sess: 


run_options = tf.RunOptions() 
run_options.timeout_in_ms = 1000 # 1s timeout 
try: 
pred = sess.run(dequeue_prediction, options=run_options) 
except tf.errors.DeadlineExceededError as ex: 


[...] # the dequeue operation timed out after is 


男 外 一 种 指定 超时 的 方式 是 设置 会 话 的 operation_timeout_in_ms 配 置 选 
， 但 在 这 种 情况 下 ， 只 要 任 一 操作 超过 超时 时 延 ran () 方法 就 会 超 
HT: 


config = tf.ConfigProto() 


config.operation_timeout_in_ms = 1000 # 1s timeout for every operation 


with tf.Session([...], config=config) as sess: 


try: 


pred = sess.run(dequeue_prediction) 
except tf.errors.DeadlineExceededError as ex: 


[...] # the dequeue operation timed out after is 


模型 并 行 化 


到 目前 为 止 ， 我们 已 经 在 一 个 单独 设备 上 运行 了 神经 网 络 。 如 果 我 们 
希望 在 多 个 设备 上 运行 一 个 单独 的 神经 网 络 呢 ?这 束 需 要 将 模型 分 为 
不 同 的 块 ， 并 在 不 同 设备 上 运行 。 这 被 称 为 模型 并 行 化 。 不 圣 的 是 ， 
模型 并 行 化 非常 复 淋 ， 并 且 依 赖 于 神经 网 络 的 染 构 。 对 于 全 连接 网 
络 ， 这 种 方式 一 般 不 会 获得 什么 ( 见 图 12-14) 。 直 观 来 看 ， 这 可 能 是 
一 个 简单 方法 来 进行 模型 分 制 ， 即 将 每 一 层 都 放置 在 一 个 不 同 的 设备 
上 ， 但 是 这 样 又 会 因为 每 一 层 都 需要 等 前 一 层 的 输出 而 导致 不 能 工 
作 。 所 以 或 许 你 可 以 垂直 切割 模型 一 一 举 个 例子 ， 将 每 一 层 的 左 半 部 
分 分 配 到 一 台 设 备 上 ， 右 半 部 分 分 配 到 另 一 台 设 备 上 ( 见 图 12-15) ° 
这 样 会 稍微 好 一 些 ， 因 为 每 一 层 的 两 部 分 的 确 可 以 并 行 工作 ， 但 生存 
在 的 问题 是 下 一 层 的 每 一 半 都 需要 两 部 分 的 输出 ， 所 以 就 会 出 现 很 多 
跨 设 备 通 信 〈 用 虚线 箭头 连接 ) 。 这 样 束 完 全 抵消 了 并 行 运算 的 好 
处 ， 因 为 跨 设 备 通信 非常 慢 (特别 是 在 不 同 机 器 上 ) 。 

不 过 ， 正 如 我 们 在 第 13 章 将 要 看 到 的 ， 有 些 神经 网 络 架 构 ， 比 如 卷 积 


神经 网 络 ， 它 包含 仅 部 分 连接 到 较 低层 的 层 ， 所 以 它 束 可 以 比较 容易 
地 跨 设备 来 分 配 块 。 
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图 12-14: 切割 一 个 全 连接 的 神经 网 络 


/ 
000000 


部 分 连接 神经 网 络 i 
非常 好 | 


图 12-15: 切割 一 个 部 分 连接 的 神经 网 络 


此 外 ， 在 第 14 章 会 讲 到 ， 一 些 深度 循环 神经 网 络 是 由 儿 层 记忆 单元 
( 见 图 12-16 左 侧 ) 组 成 的 。 一 个 单元 在 时 刻 t 的 输出 会 作为 在 时 刻 t+1 


的 输入 〈 详 见 图 12-16 右 侧 ) 。 如 果 你 沿 水 平方 向 切割 这 个 网 络 ， 将 每 
一 层 分 配 到 不 同 的 设备 上 ， 然 后 在 第 一 步 只 激活 一 个 设备 ， 第 二 步 油 
活 两 个 ， 当 信号 传播 到 输出 层 时 ， 所 有 设备 会 同时 被 激活 。 这 样 仍然 
会 存在 大 量 跨 设备 通信 ， 但 是 因为 每 个 单元 部 非 第 复杂 ， 所 以 并 行 运 
行 多 个 单元 的 好 处 会 大 于 通信 的 消耗 。 

简 而 言 之 ， 模 型 并 行 化 可 以 提高 运行 或 者 训练 茶 些 类 型 神经 网 络 的 速 
度 ， 但 不 是 全 部 ， 而 且 它 需要 特别 关注 和 调整 ， 比 如 确保 需要 频 崇 通 
信 的 设备 要 运行 在 同一 机 器 上 。 

数据 并 行 化 

男 一 种 并 行 训 练 神经 网 络 的 方法 是 在 每 一 台 设 备 上 进行 拷贝 ， 在 每 一 


个 副本 上 同时 运行 训练 步骤 ， 使 用 不 同 的 小 批量 ， 然 后 汇总 梯度 来 更 
新 模型 参数 。 这 被 称 为 数据 并 行 化 见 图 12-17) 。 
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图 12-16: 切割 一 个 深度 循环 神经 网 络 
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图 12-17: 数据 并 行 化 
这 种 方法 有 两 种 形式 ， 同 步 更 新 和 异步 更 新 。 
同步 更 新 


使 用 同步 更 新 ， 聚 合 器 需要 在 计算 平均 值 并 使 用 结果 (如 使 用 汇总 梯 
度 更 新 模型 参数 ) 之 前 等 等 所 有 梯度 可 用 。 一 旦 副本 完成 梯度 计算 ， 
它 必 须 等 到 参数 更 新 完 之 后 才 可 以 进行 下 一 个 小 批量 。 缺 点 是 有 些 设 
备 可 能 比 其 他 的 设备 慢 ， 所 以 其 他 设备 就 必须 每 一 步 都 等 待 。 另 外 ， 
参数 几乎 是 同时 复制 到 每 一 个 设备 的 (梯度 应 用 完 之 后 立刻 复制 ) ， 
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举 个 例子 ， 你 可 以 运行 20 个 副本 ， 但 是 每 一 步 只 


本 ， 直 接 忽 略 最 后 2 个 的 梯度 。 一 旦 参数 被 更 新 ， 最 快 的 18 个 副本 束 可 
以 立刻 开始 重新 工作 ， 而 不 用 等 那 2 个 最 慢 的 副本 。 这 种 设置 通常 被 称 
为 18 个 副本 加 2 个 备用 副本 。 R 


异步 更 新 


使 用 异步 更 新 ， 每 当 副 本 完成 梯度 计算 ， 就 会 立刻 更 新 模型 参数 。 这 
里 没有 汇总 (去 掉 图 12-17 的 “平均 ”步骤 ) ， 也 没有 同步 。 副 本 之 间 工 
作 是 独立 的 。 因 为 不 需要 等 待 其 他 副本 ， 这 种 方式 每 分 钟 会 运行 更 多 
训练 步 又 。 男 外 ， 尺 管 每 一 步 还 需要 将 参数 据 贝 到 每 一 个 设备 上 ， 但 
是 对 于 每 一 个 副本 发 生 的 时 间 古 不 一 样 的 ， 所 以 降低 了 市 贺 饱 和 的 风 


险 。 


异步 更 新 的 数据 并 行 化 是 一 个 有 吸引 力 的 选择 ， 因 为 它 很 简单 ， 没 有 
同步 延迟 ， 同 时 更 好 地 利用 了 带宽 。 然 而 ， 尽 管 在 实验 中 表现 得 很 
好 ， 但 是 实际 的 结果 还 是 很 让 人 惊讶 的 ! 事实 上 ， 副 本 根据 一 些 参数 
值 完成 运算 ， 这 些 参 数 就 会 被 其 他 副本 更 新 好 几 次 (假设 N 个 副本 ， 平 
均 就 会 有 N-1 次 更 新 ) ， 而 且 没 办 法 保证 计算 出 的 梯度 会 始终 指向 正确 
方向 ( 见 图 12-18) 。 当 梯度 严重 过 期 时 ， 会 被 称 为 过 期 梯度 :它们 会 
碱 慢 收敛 速度 ， 引 入 噪声 和 摆动 效应 (学习 曲线 可 能 包含 临时 振 

荡 ) ， 其 至 会 导致 训练 算法 发 散 。 


Cost 


这 里 计算 梯度 


RH, RET! 


Vo 


A 
通过 其 他 副本 更 新 stHR 


图 12-18: 使 用 异步 更 新 时 的 过 期 梯度 


下 面 有 几 种 方法 来 降低 过 期 梯度 的 影响 : 
:降低 学 习 速 率 。 

:丢弃 过 期 梯度 或 者 降低 。 

.调整 小 批量 大 小 。 

.最 开始 的 几 个 全 数据 集 只 使 用 一 个 副本 (这 个 称 为 热身 阶段 )。 过 期 
梯度 一 般 在 训练 开始 时 影响 比较 大 ， 那 时 梯度 比较 大 且 参 数 还 未 落 入 
a 所 以 不 同 的 副本 可 能 会 从 相差 比较 大 的 方向 上 影响 
Google Brain 团 队 在 2016 年 4 月 发 表 的 论文 (http://g00.g/9GCiPb ) 中 对 
多 种 方法 进行 了 基准 测试 ， 发 现 使 用 几 个 备用 副本 的 同步 更 新 数据 并 


行 化 是 最 有 效 的 ， 不 仅 收敛 速度 更 快 而 且 产生 的 模型 更 好 。 然 而 ， 这 
仍然 是 一 个 很 热门 的 研究 区 域 ， 所 以 你 不 应 该 将 异步 更 新 排除 出 去 。 


无 论 使 用 同步 还 是 异步 更 新 ， 数 据 并 行 化 仍然 需要 在 每 一 个 训练 步 又 

的 开始 阶段 ， 从 参数 服务 器 将 模型 参数 传递 给 每 一 个 副本 ， 并 在 训练 
步骤 的 结束 阶段 向 另 一 个 方 问 传递 梯度 。 。 不 幸 的 是 ， 这 就 意味 着 ， 添 
加 额外 的 GPU 也 不 会 改善 性 能 ， 因 为 将 数据 从 GPU RAM (并 且 可 能 跨 
网 络 ) 传 入 传 出 所 花 的 时 间 超 过 了 通过 用 SHIGE fi BOAT IR GATS o 

在 这 一 点 上 ， 增 加 更 多 的 GPU 只 会 加 速 饱 和 并 减 慢 训练 速度 。 


A 对 于 某 些 模型 ， 特 别 是 相对 比较 小 并 且 在 一 个 非常 大 的 训练 集 上 进 
行 训练 的 模型 ， 你 最 好 在 使 用 和 单个 GPU 的 单机 右上 进行 训练 。 


大 密度 模型 的 饱和 情况 更 严重 ， 因 为 它们 有 大 量 参数 和 梯度 要 传输 。 
小 模型 《但 是 并 行 化 获得 的 效益 也 少 ) 和 大 型 稀疏 模型 ， 因 为 梯度 基 
本 为 0， 所 以 可 以 进行 有 效 通信 ， 人 饱和 情况 就 不 严重 。Jeff Dean 
(Google Brain HIP AJR EAR AE) ， 提 出 (http:/goo.gVE4ypxo ) 
当 针 对 密度 模型 跨 50 个 GPU 进行 4 分 布 式 计算 时 ， 典型 提速 25~-40 倍 ， 
跨 500 个 GPU 训练 的 稀 朴 模型 提速 300 倍 。 正 如 你 所 看 到 的 ， 稀 疏 模 型 
的 确 表现 更 出 色 。 下 面 有 几 个 具体 的 例子 : 


.神经 机 器 翻译 : 8 个 GPU， 提 速 6 倍 

‘Inception/ImageNet: 50 个 GPU， 提 速 32 倍 

.RankBrain: 500 个 GPU， 提 速 300 倍 

这 些 数据 代表 了 2016 年 第 一 季度 的 最 新 技术 。 当 密集 模型 超过 儿 十 个 
GPU 或 者 稀疏 模型 超过 几 百 个 GPU 时 ， 饮 和 现象 会 出 现 并 且 性 能 

降 。 后 续 还 有 很 多 研究 来 解决 这 个 问题 〈 探 索 点 对 点 架构 而 不 是 集中 
n gas 使 用 有 损 模 型 压缩 ， 优化 需要 通信 的 副本 时 间 和 内 
容 ， 等 等 ) ， 所 以 在 未 来 几 年 并 行 化 神经 网 络 可 能 会 有 长 足 的 进步 。 
在 此 期 间 ， 下 面 有 几 个 简单 的 步骤 帮助 你 减少 饱和 问题 : 


:将 GPU 分 组 在 几 个 服务 器 上 ， 而 不 是 分 散在 多 个 服务 右上 。 这 样 可 以 
避免 不 必要 的 网 络 跳 数 。 


-在 多 个 参数 服务 器 间 分 片 参数 〈《 如 之 前 所 述 ) 。 


.将 模型 参数 的 浮 点 精度 从 32 位 (tf.float32) 降低 到 16 位 (tf.float16) ° 
这 样 会 将 传输 数据 的 数量 减 半 ， 但 不 太 会 影响 收敛 速度 或 者 模型 性 


A5 
HE ° 


A 尽管 16 位 精度 是 训练 神经 网 络 的 最 低 值 ， 你 仍然 可 以 在 训练 后 降低 
到 8 位 精度 来 减 小 模型 的 大 小 和 加 快运 算 速 度 。 这 被 称 为 量化 神经 网 
络 。 它 对 于 在 手机 上 部 署 和 运行 预 训练 模型 非 浓 有 用 。 详 见 Pete 
Warden 关 于 这 个 主题 的 文章 (http://goo.gV09Cb6v) ° 


TensorFlow 实 现 


使 用 TensorFlow 来 实现 数据 并 行 化 ， 首 先 要 确定 选择 图 内 找 贝 还 是 图 间 
拷贝 ， 以 及 需要 同步 更 新 还 是 异步 更 新 。 一 起 来 看 一 下 如 何 实现 每 一 
种 组 合 (参见 练习 和 Jupyter 笔 记 中 的 完整 代码 示例 ) 。 


使 用 图 内 找 贝 + 同步 更 新 ， 你 要 创建 一 个 包含 所 有 模型 副本 (分 布 在 不 
同 设备 上 ) 的 大 图 ， 同 时 几 个 节点 来 汇总 所 有 梯度 ， 并 将 其 赋予 一 个 
优化 器 。 在 集群 中 创建 一 个 会 话 ， 然 后 重复 运行 训练 操作 即 可 。 


使 用 图 内 拷贝 + 异步 更 新 ， 同 样 要 创建 一 个 大 图 ， 但 是 每 一 个 副本 有 一 
个 优化 侨 ， 同 时 给 每 一 个 副本 运行 一 个 线程 ， 重 复 运行 副 本 的 优化 
器 。 


使 用 图 间 拷 贝 + 异步 更 新 ， 运 行 多 个 独立 客户 端 〈 在 不 同 的 进程 ) ， 
人 但 其 实 参数 是 共享 的 〈 使 用 货源 容 
ay o 


使 用 图 间 拷 贝 + 同步 更 新 ， 同 样 ， 运 行 多 个 客户 端 ， 每 个 客户 端 都 会 根 
据 共 享 参数 对 模型 副本 进行 训练 ， 但 此 时 你 可 以 在 
SyncReplicasOptimizer 中 封装 优化 器 ( 即 MomentumOptimizer) 。 每 个 
副本 像 使 用 其 他 优化 天 一 样 使 用 这 个 优化 右 ， 但 是 在 后 台 ， 这 个 优化 
器 会 将 梯度 传 给 一 组 队列 〈 每 个 变量 一 个 ) ， 副 本 的 一 个 SyncReplicas 
Optimizer 会 去 读 取 这 个 队列 ， 它 被 称 为 chief。chief 汇 总 樟 度 并 使 用 它 
们 ， 然 后 给 每 个 副本 的 令 牌 队列 里 写 入 一 个 令 牌 ， 表 明 它 可 以 继续 并 
运算 下 一 个 梯度 。 这 个 方法 文 持 备用 副本 。 


如 果 你 完成 练习 ， 你 可 以 分 别 实现 这 四 种 方式 。 你 可 以 很 容易 地 应 用 
所 学 来 训练 跨 数 十 个 服务 器 和 GPU 的 大 型 深度 神经 网 络 ! 在 之 后 的 章 
ae BUA 2 TEMPER CAE) ZB CSE) LR HE P28 8 


[1] 如 果 等 到 所 有 设备 都 结束 ， 就 不 是 100% 线 性 ， 因 为 整体 时 间 是 最 慢 
的 设备 所 花费 的 时 间 。 


[2] 这 个 名 称 可 能 有 点 宴 乱 ， 因 为 听 上 去 像 生 一 些 副 本 很 特殊 ， 什 么 都 
不 做 。 事 实 上 ， 所 有 副本 都 是 一 样 的 : 它们 都 努力 成 为 每 个 训练 步 又 
中 最 快 的 ， 输 家 在 每 一 步 都 不 一 样 (除非 有 些 设备 是 真 的 比 其 他 设备 


1) 


PRF] 

1. 如 果 在 你 启动 TensorFlow 程 序 时 得 到 一 个 

CUDA_ERROR_OUT_OF _MEMORY 报 警 ， 那 可 能 发 生 了 什么 ?你 该 
TAJ 


2 固定 一 个 操作 在 一 台 设 备 上 和 放置 一 个 操作 在 一 台 设 备 上 有 什么 不 
司 ? 


3. 如 果 你 正在 运行 一 个 支持 GPU 的 TensorFlow 安 装 程序 ， 并 且 使 用 默认 
放置 ， 那 么 所 有 操作 会 放置 在 第 一 个 GPU 上 吗 ? 


4. 如 果 你 在 %gpu: 0" 固 定 一 个 变量 ， 那 么 放置 在 gpu: 1" 上 的 操作 可 
以 使 用 这 个 变量 吗 ? 或 者 是 放置 在 "/cpu: 0" 上 的 操作 呢 ? 或 者 是 固定 
在 位 于 其 他 服务 器 的 设备 上 的 操作 呢 ? 

5. 放 置 在 同一 设备 的 两 个 操作 可 以 并 行 运 行 吗 ? 

6. 什 么 是 控制 依赖 ， 什 么 时 候 需 要 使 用 它 ? 

7. 假 设 你 在 一 个 TensorFlow 集 群 上 训练 了 一 个 DNN 好 几 天 ， 束 在 快要 结 


束 的 时 候 ， 你 突然 意识 到 你 筷 了 用 Saver 存 储 模 型 。 那 么 你 的 训练 模型 
RARI? 


8. 在 一 个 TensorFlow 集 群 中 使 用 不 同 的 超 参数 值 来 并 行 训练 几 个 DNN 。 
这 可 能 是 MNIST 分 类 的 DNN 或 者 其 他 你 感 兴趣 的 任务 。 最 简单 的 方式 
是 写 单个 客户 端 程序 仅 用 来 训练 一 个 DNN， 然 后 针对 不 同 客户 端 使 用 
不 同 的 超 参数 值 并 行 在 多 个 进程 中 运行 这 个 程序 。 程 序 会 有 命令 行 选 
项 来 控制 在 哪 一 合 服务 右 和 设备 上 放置 DNN， 以 及 使 用 什么 货源 容 需 
和 超 参 数值 (确保 每 个 DNN 使 用 不 同 的 资源 容器 ) 。 使 用 验证 集成 交 
义 验 证 来 克 择 排列 前 三 的 模型 。 


9. 使 用 前 一 个 练习 的 三 个 模型 构建 一 个 集合 体 。 定 义 它 为 一 个 单独 图 ， 
确 人 每 一 个 DNN 运 行 在 一 个 不 同 的 设备 上 。 用 验证 集 来 评估 它 ， 十 不 
征集 合体 的 性 能 比 独立 的 DNN 好 ? 


10. 用 图 间 乒 贝 训练 一 个 DNN， 用 有 异步 更 新 来 完成 数据 并 行 化 ， 记 录 到 
达 满 意 性 能 的 时 间 。 然 后 ， 使 用 同步 更 新 再 试 一 次 。 有 是 不 是 同步 更 新 
产 出 的 模型 更 好 ? 训练 速度 更 快 ? 垂直 分 割 DNN 并 且 分 别 放置 在 不 同 
的 设备 上 ， 再 训练 一 次 模型 。 训 练 速度 加 快 了 吗 ? 性 能 有 什么 变化 ? 


练习 的 解决 方案 详 见 附录 A 。 
第 13 章 ” 卷 积 神经 网 络 


虽然 早 在 1996 年 IMB 的 深 监 计算 机 束 击 败 了 世界 围棋 冠军 加 里 ' 卡 斯 则 
罗 夫 (Garry Kasparov) ， 但 是 直到 现在 为 止 ， 计 算 机 也 很 难 完成 一 些 
看 似 很 侧 单 的 任务 ， 比 如 检测 出 图 片 中 小 狗 或 者 识别 语言 。 为 什么 这 
些 工作 在 我 们 人 类 看 来 毫 不 费力 呢 ? 答案 是 ， 感 知 主要 发 生 在 我 们 的 
意识 之 外 ， 在 大 脑 专门 的 视觉 、 听 觉 和 其 他 感官 模块 中 。 当 感知 信息 
到 达意 识 时 ， 它 已 经 被 高 层次 的 特征 修饰 过 了 。 举 个 例 和 于， 当 你 看 见 
一 张 可 爱 的 小 狗 的 照片 时 ， 你 不 能 选择 不 看 小 狗 ， 或 者 忽视 它 的 可 
爱 。 你 不 能 解释 你 是 如 何 识别 一 只 可 爱 的 小 狗 ， 这 对 你 来 说 只 是 显 而 
易 见 的 事情 。 所 以 ， 不 能 相信 我 们 的 主观 经 验 : 感知 根本 不 是 微 不 足 
道 的 事情 。 要 了 解 它 ， 我 们 必须 着眼 于 感知 模块 是 如 何 运 作 的 。 


卷 积 神经 网 络 (CNN) 起 源 于 对 大 脑 的 视觉 皮层 的 研究 ， 从 20 世 纪 80 
年 代 起 被 用 于 图 像 识 别 。 在 过 去 几 年 中 ， 由 于 计算 机 计算 能 力 提高 ， 
可 用 训练 数据 数量 的 增加 ， 以 及 第 11 章 提 到 的 用 于 深度 网 络 训 练 技巧 
的 增加 ，CNN 已 经 在 一 些 复杂 的 视觉 任务 中 实现 了 超人 性 化 ， 广 泛 用 
于 图 片 搜 索 服 务 、 自 动 芍 驶 汽车 、 自 动 视频 分 类 系统 等 。 此 外 ， 不 局 


限于 视觉 感知 ，CNN 也 成 功用 于 其 他 任务 ， 比 如 : 语音 识别 或 自然 语 
言 处 理 (NLP) 。 然 而， 我 们 现在 将 专注 于 视觉 应 用 。 


在 本 章 ， 我 们 首先 介绍 CNN 从 哪里 来 ， 它 的 构建 模块 是 怎样 的 ， 以 及 
如 何 使 用 TensorFlow 实 现 它 。 然 后 介绍 一 些 比较 好 的 CNN 架 构 。 


ALG BCR A ZAZA 


David H.HubelýH Torsten Wiesel 在 1958 (http://g00.¢1//VLxxf9 ) HÆF 
1959 (http://g00.eg/OYuFUZ ) 后 年 利用 猫 做 了 一 系列 实验 (在 随后 的 
几 年 也 又 利用 猴子 做 过 实验 (http:/goo.gV95F7QH ) BL ， 对 视觉 皮 
层 的 结构 提出 了 重要 见解 (该 成 果 使 得 作者 获得 了 1981 年 的 诺 贝尔 生 
理学 和 医学 奖 ) 。 另 外 ， 他 们 指出 视觉 皮层 神经 元 有 一 个 小 的 局 部 接 
受 野 (receptive field) ， 这 就 意味 着 它们 只 对 视野 的 局 部 区 域内 的 视觉 
刺激 做 出 反应 见 图 13-1， 其 中 五 个 虚线 圆圈 代表 局 部 接受 野 ) 。 不 同 
神经 元 的 接受 野 有 可 能 会 重复 ， 它 们 一 起 平 铺 在 整个 视觉 区 域 。 此 
外 ， 他 们 指出 一 些 神 经 元 作用 于 图 厂 的 水 平方 辐 ， 而 男 一 些 神经 元 作 
用 于 其 他 方向 〈 两 个 神经 元 可 能 有 相同 的 接受 野 ， 但 是 作用 于 不 同方 
向 。) 他 们 也 注意 到 有 些 神经 元 有 比较 大 的 接受 野 ， 他 们 作用 于 由 多 
个 低 阶 模式 组 成 的 复杂 模式 。 这 个 发 现 可 以 推测 出 ， 高 阶 神 经 元 是 基 
于 相 邻 的 低 阶 神经 元 的 输出 〈 见 图 13-1， 每 个 神经 元 只 跟 上 一 层 的 少数 
神经 元 连接 ) 。 这 种 强大 的 组 织 结构 可 以 检测 到 视觉 区 域内 的 所 有 复 


杂 模 式 。 


图 13-1: 视觉 皮层 中 的 局 部 接受 野 


这 些 关 于 视觉 皮层 的 研究 影响 了 1980 年 引入 的 新 认 知 机 ( 
http://goo.sV/Xwixs9 ) ， 出 然后 逐步 演变 成 我 们 说 的 卷 积 神 经 网 络 。 
一 个 重要 的 里 程 碑 是 Yann LeCun、Léon Bottou ` Yoshua Bengio 和 
Patrick Haffner 等 人 发 表 于 1998 年 的 论文 (http://g00.gV/A347S4 ) !l- o 
该 论文 介绍 了 广泛 用 于 识别 手写 支票 号 码 的 著名 LeNet-5 架 构 。 该 架构 
除了 一 些 广为人知 的 构建 块 (building blocks) ， 例 如 全 连接 层 (fully 
connected layers) 和 S 形 激活 函数 (sigmoid activation functions) ， 还 引 
入 了 两 个 新 的 构建 块 : 卷 积 层 (convolutional layers) 和 池 化 层 
(pooling layers) 。 我 们 现在 束 开 始 学 习 它 们 吧 。 


` 为 什么 我 们 不 简单 地 使 用 常规 的 全 连接 层 深度 神经 网 络 进行 图 像 识 
AWE? 很 遗憾 ， 尽 管 该 方法 对 小 图 片 (例如 MNIST) 可 以 正常 工作 ， 
但 是 由 于 需要 海量 参数 ， 使 得 它 对 大 图 像 无 能 为 力 。 例 如 ， 一 副 
100x100 的 图 像 有 10000 像 素 ， 如 果 第 一 层 有 1000 个 神经 元 (这 个 数量 
已 经 严重 限制 了 传输 到 下 一 层 的 数据 量 ) ， 那 么 仅仅 第 一 层 就 有 1000 
万 个 连接 。CNN 使 用 部 分 连接 层 (partially connected layers) 解决 了 这 
个 问题 。 


[1] “Single Unit Activity in Striate Cortex of Unrestrained Cats”, D.Hubel 
和 工 Wiesel (1958) ° 


[2] “Receptive Fields of Single Neurones in the Cat’s Striate Cortex” , 
D.HubelfllT.Wiesel (1959) ° 


[3]_ “Receptive Fields and Functional Architecture of Monkey Striate 
Cortex”, D.Hubel 和 T.Wiesel (1968) ° 


[4|_“Neocognitron : A Self-organizing Neural Network Model for a 
Mechanism of Pattern Recognition Unaffected by Shift in Position” , 
K.Fukushima (1980) 。 


[5|_ “Gradient-Based Learning Applied to Document Recognition” , 
YLeCun 等 人 (1998) 。 
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CNN 的 最 重要 的 构建 块 是 卷 积 层 : 出 -第 一 卷 积 层 的 6 个 神经 元 不 会 连接 
到 输入 图 像 中 的 每 个 像素 (如 前 文 所 述 ) ， 而 只 与 其 接受 野 内 的 像素 
相连 接 ( 见 图 13-2) 。 反 过 来 ， 第 二 卷 积 层 的 每 个 神经 元 仅 连 接 到 位 于 
第 一 层 中 的 一 个 小 矩阵 内 的 神经 元 。 这 种 结构 允许 网 络 集中 在 第 一 个 
隐藏 层 的 低 阶 特征 中 ， 然 后 在 下 一 个 隐藏 层 中 将 它们 组 装 成 比较 高 阶 
的 特征 ， 等 等 。CNN 在 网 像 识别 方面 效果 很 好 的 原因 之 一 是 这 种 层次 
结构 在 现实 世界 的 图 像 中 很 常见 。 
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图 13-2: CNN 层 中 的 矩形 局 部 接受 野 


` 直到 现在 为 止 ， 我 们 看 到 的 多 层 神经 网 络 都 有 由 长 神经 组 成 的 技 ， 
在 将 其 提供 给 神经 网 络 之 前 ， 我 们 必须 将 图 片 平 滑 到 一 维 。 现 在 ， 每 
层 都 用 二 维 表示 ， 这 样 更 容易 将 神经 元 与 其 相应 的 输入 相 匹 配 。 


位 于 给 定 层 i 行 、j 列 的 神经 元 ， 与 上 一 层 输 出 中 位 于 i 到 i+fy -1 行 ，j 到 

j+f -1 列 的 神经 元 相关 联 ， 其 中 fy 和 f 分别 表示 接受 野 的 高 和 宽 〈 见 

图 13-3) 。 为 了 使 这 一 层 与 上 一 层 有 相同 的 高 和 宽 ， 通 常会 在 输入 周转 
填充 零 ， 如 图 13-3 所 示 。 这 种 方式 称 为 零 填 充 (zero padding) 。 


图 13-3: 层 与 零 填 充 之 间 的 连接 


如 图 13-4 所 示 ， 可 以 通过 间隔 出 接受 野 的 方式 使 得 一 个 大 的 输入 层 连 接 
到 更 小 的 层 。 两 个 连续 的 接受 野 之 间 的 距离 叫 作 步 幅 。 在 该 图 中 ， 一 

个 5x7 的 输入 层 MERET) 连接 到 一 个 3x4 层 ， 使 用 3x3 接 受 野 ， 步 
幅 为 2 〈 在 本 例 中 ， 各 个 方向 的 步 幅 相同 ， 但 它 也 可 以 不 相同 ) 。 位 于 
上 一 层 i 行 ，j 列 的 神经 元 与 下 层 ixsh 到 ixsh+fh -1 行 ，jxs v+fw-1 列 相连 
接 ， 其 中 sy Als, 分 别 代表 垂直 和 水 平方 向 的 步 幅 。 
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图 13-4: 使 用 步 幅 降低 维度 


神经 元 的 权重 可 以 用 接受 野 大 小 表示 。 例 如 ， 图 13-5 显 示 了 两 个 可 能 的 
权重 集合 ， 被 称 为 过 滤器 〈 或 者 卷 积 内 核 ) 。 第 一 个 过 滤器 是 一 个 中 

间 有 垂直 白 线 的 黑色 正方 形 ( 它 是 一 个 7x7 的 和 矩阵， 中间 竖 线 的 值 为 

1， 其 余 的 值 为 0) 。 使 用 该 权重 ， 神 经 元 将 名 略 接 受 野 内 除了 垂直 日 

线 外 的 其 他 内 容 〈 因 为， 除了 这 些 白 线 的 位 置 ， 其 他 输入 将 会 被 乘 以 
0) 。 第 二 个 过 滤器 是 一 个 中 间 有 水 平日 线 的 黑色 正方 形 。 同 样 ， 使 用 
该 权重 ， 神 经 元 将 会 名 略 接 受 野 内 除了 水 平 白 线 外 的 其 他 内 容 。 


现在 ， 如 果 同 一 层 中 的 所 有 神经 元 都 使 用 垂直 线 过 滤器 (并 且 有 相同 
的 偏差 系数 ) ， 并 且 给 网 络 输入 如 图 13-5 底 部 所 示 图 像 ， 那 么 该 层 的 输 
出 将 如 左上 图 像 。 我 们 注意 到 ， 垂 直方 向 的 日 线 得 到 增强 ， 其 余 方向 
的 日 线 变 得 模糊 。 相 似 地 ， 右 上 图 像 古 所 有 神经 元 使 用 水 平 线 过 滤 紫 
得 到 的 结 采 ， 其 水 平方 巾 的 日 线 得 到 增强 ， 其 他 方向 的 日 线 变 得 模 
糊 。 因 此 ， 一 层 使 用 了 相同 过 滤器 的 神经 元 提供 给 我 们 一 个 特征 图 


(feature map) ， 其 中 与 过 滤器 特征 相似 的 部 分 得 到 强化 。 在 训练 过 程 
中 ，CNN 为 其 任务 找到 最 有 用 的 过 滤 絮 ， 并 且 学 习 将 它们 组 成 更 加 复 
四 图 像 中 的 十 字 区 域 ， 束 是 水 平 过 滤器 和 垂直 过 小 句 
HJH; J 结 o 
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图 13-5: BEHRA TR a is a 2 PME 
多 个 特征 图 的 县 加 


到 目前 为 止 ， 为 了 简 音 起见， 我们 使 用 一 个 注 的 二 维 层 表 示 卷 积 层 ， 
但 是 实际 上 它 由 多 个 大 小 相同 的 特征 图 组 成 ， 所 以 使 用 三 维 来 表示 更 
加 准确 ( 见 图 13-6) 。 在 同一 个 特征 图 中 ， 所 有 的 神经 元 具有 相同 的 参 
数 (权重 和 偏差 系数 ) ， 但 是 不 同 的 特征 图 可 能 有 不 同 的 参数 。 神 经 
元 接收 野 的 概念 与 前 文 所 述 相 同 ， 但 是 它 要 延伸 到 前 面 所 有 层 的 特征 


R o AWAZ, GWENT HAs bier, E Fees kell) 
到 输入 的 多 个 特征 。 


` 特征 图 中 所 有 神经 元 共享 参数 能 够 显著 减 小 模型 中 的 参数 数量 ， 但 
更 重要 的 是 ， 这 一 特性 意味 着 一 旦 CNN 学 会 了 识别 某 个 位 置 上 的 某 个 
模式 ， 它 就 可 以 在 任何 地 方 识别 该 模式 。 相 比 之 下 ， 传 统 的 DNN 学 会 
识别 某 个 位 置 上 的 某 个 模式 ， 它 只 能 在 特定 位 置 识别 该 模式 。 


此 外 ， 输 入 图 像 也 是 由 多 个 子 层 组 成 的 : 每 个 颜色 通道 通 音 有 三 种 颜 
色 : 红 、 绿 、 蓝 (RGB) 。 灰 度 图 通常 只 有 一 个 通道 ， 但 是 有 些 灰 度 
图 有 多 个 通道 ， 例 如 捕获 额外 光 频 (如 红外 光 ) 的 卫星 图 像 。 
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图 13-6: 具有 多 个 特征 图 的 卷 积 层 和 具有 三 个 通道 的 图 像 


具体 来 说 ， 一 个 位 于 给 定 卷 积 层 ] 的 特征 图 k 上 的 i 行 j 列 的 神经 元 ， 与 上 
一 层 ]-1 的 神经 元 相连 接 ， 其 位 置 为 ixs w 到 ixs w+fw-1 行 ，jxsh 到 jxsh+f 
h-1 列 ， 并 且 穿 过 1-1 层 中 所 有 的 特征 图 。 注 意 ， 所 有 位 于 不 同 特征 图 的 i 
行 j 列 的 神经 元 都 连接 到 前 一 层 输出 中 完全 相同 的 神经 元 。 


公式 13-1 用 一 个 数学 方程 总 结 了 前 面 所 解释 的 内 容 ， 它 显示 了 如 何 计算 
给 定神 经 元 的 输出 。 由 于 各 种 下 标 ， 这 个 方程 看 起 来 有 点 星 深 ,但 是 
它 做 的 事情 仅仅 是 计算 所 有 输出 的 加 权 值 加 上 偏 置 参数 。 
公式 13-1: 计算 卷 积 层 中 神经 元 的 输出 
if ip f ih =p 8. 5, +f, = | 
a | = b, + y j) ) j' N ' W, i 及 人 其 中 
uzl v=l k=] ] = 1? 5, +f - | 


Zi j EERE (I 层 ) 的 特征 图 k 的 神经 元 在 i 行 j 列 的 输出 。 


如 上 所 述 ，sh 和 sw 分 别 和 是 水 平方 向 和 垂直 方 同 的 步 幅 ，fn 和 fw 分 别 是 
接收 里 的 高 和 宽 ，fnw 和 是 上 一 层 (1-1 层 ) 的 特征 图 的 数量 。 


Xi yk 是 1-1 层 的 位 于 i 行 j' 列 的 特征 图 k”( 如 琳 前 一 层 是 输入 层 ， 那 么 
就 是 信道 k") 上 的 神经 元 的 输出 。 


bk 是 特征 图 k UE) 的 偏 置 参数 。 你 可 以 认为 它 是 调整 特征 图 k 微 调 亮 
度 的 旋钮 。 


wu v kk 是] 层 中 的 任意 特征 图 k 和 它 位 于 特征 图 kK 的 u 行 v 列 的 输入 之 
间 的 连接 权重 。 


TensorFlow 实 现 


在 TensorFlow 中 ， 每 张 输入 图 片 通 单 表示 为 三 维 张 量 [height，width ， 
channels]。 小 批 次 表示 为 四 维 张 量 [mini-batch size, height, width, 
channels] ° 卷 积 层 的 形状 表示 为 四 维 张 量 [f; ，f,、，f，，f%]。 卷 积 层 
的 偏 置 参数 人 简单 地 表示 为 一 维 张 量 [f.，]。 


来 看 一 个 例子 ，Scikitr-Learn 的 load_sample_images () 函数 加 载 了 两 个 
HERR (两 张 彩色 图 像 ， 一 张 是 中 式 寺 庙 ， 男 一 张 是 花 ) 。 然 后 创 
建 两 个 7x7 的 过 滤器 〈 一 个 中 间 有 垂直 白 线 ， 另 一 个 中 间 有 水 平 白 

线 ) ， 并 使 用 TensorFlow 的 conv2d () 男 数 的 卷 积 层 构建 这 两 张 图 像 


(用 零 填 充 ， 步 幅 为 2) 。 最 后 ， 绘 制 了 一 个 生成 的 特征 图 (与 图 13-5 
中 右上 角 的 图 像 类 似 ) 。 
import numpy as np 


from sklearn.datasets import load_sample_images 


# Load sample images 
dataset = np.array(load_sample_images().images, dtype=np.float32) 


batch_size, height, width, channels = dataset.shape 


# Create 2 filters 


filters test = np.zeros(shape=(7, 7, channels, 2), dtype=np.float32) 


filters _test[:, 3, :, 0] 1 # vertical line 


filters _test[3, :, :, 1] 1 # horizontal line 


# Create a graph with input X plus a convolutional layer applying the 2 filters 


X = tf.placeholder(tf.float32, shape=(None, height, width, channels) ) 


convolution = tf.nn.conv2d(X, filters, strides=[1,2,2,1], padding="SAME" ) 


with tf.Session() as sess: 


output = sess.run(convolution, feed_dict={X: dataset}) 
plt.imshow(output[0, :, :, 1]) # plot 1st image's 2nd feature map 


plt.show() 


a aa 
Z. 

X 表 示 小 批 次 (如 前 文 所 述 的 一 个 四 维 张 量 ) 。 

-filters 表 示 一 系列 要 应 用 的 过 滤器 《也 是 前 文 提 到 过 的 一 个 四 维 张 


量 ) 


‘strides 是 一 个 由 四 个 元 素 组 成 的 一 维 数组 ， 其 中 两 个 中 心 元 素 是 垂直 和 
KEFR (sh 和 s,s) 。 第 一 个 和 最 后 一 个 元 素 当前 的 值 必须 等 于 1。 它 
们 可 能 被 用 于 指定 批 次 步 幅 (为 了 跳 过 一 些 实例 ) 和 通道 步 幅 (为 了 
跳 过 一 个 上 一 层 的 特征 图 或 者 通道 ) 。 


.padding 的 值 必须 为 VALID 或 者 SAME: 


如 有 宁 设 置 为 VALID ， 卷 积 层 束 不 使 用 零 填 充 ， 根 据 步 幅 可 能 会 忽略 输 
入 图 片 中 位 于 瓜 部 和 右 侧 的 一 些 行 和 列 ， 如 图 13-7 所 示 (为 了 简单 起 
Be PO eee eee eee 

H, O 

-如 采 设 置 为 SAME， 则 卷 积 层 在 必要 时 使 用 零 填 充 。 在 这 种 情况 下 ， 

输出 神经 元 的 数量 等 于 和 输入 神经 元 的 数量 除 以 步 幅 ， 结 末 回 上 取 整 

和 


padding="VALID" 
(TAR) 


padding="SAME" 
(FAR) 


图 13-7: 填充 选项 一 输入 宽 13， 过 滤器 宽 6， 步 幅 5 


不 幸 的 是 ， 卷 积 层 有 很 多 超 参数 : 你 必须 选择 过 滤器 的 数量 、 高 、 
宽 、 步 幅 以 及 填充 类 型 。 与 往 音 一样， 你 可 以 使 用 交叉 验证 来 找到 正 
确 的 超 参 数值 ， 但 这 非常 耗 时 。 稍 后 ， 我 们 将 讨论 第 见 的 CNN 架 构 ， 
让 你 了 解 什么 超 参 数值 在 实践 中 最 有 效 。 


CNN 的 另 一 个 问题 是 卷 积 层 需要 大 量 的 内 存 ， 特 别 是 在 训练 期 间 ， 
为 反 向 传播 的 方向 传递 需要 在 正 向 传递 期 间 计 算 所 有 的 中 间 值 。 


举 个 例子 ， 一 个 使 用 5x5 过 滤 絮 的 卷 积 层 ， 输 出 200 个 大 小 为 150x100， 
步 幅 为 1，padding 值 为 SAME 的 特征 图 。 如 果 输 入 为 150x100 的 RGB 图 
像 (三 个 通道 ) ， 参 数 的 数量 为 (5x5x3+1) x200=15200 (+1 对 应 的 是 
偏 置 参 数 ) ， 与 全 连接 相 比 ，[ 半 这 个 数量 小 得 多 。 然 而 200 个 特征 图 中 
每 一 个 都 包含 150x100 个 神经 元 ， 而 每 一 个 神经 元 都 需要 计算 5x5x3=75 


个 输入 的 加 权 和 : 那 将 是 总 数 为 2.25 亿 次 的 浮 点 乘法 。 虽 然 与 全 连接 相 
比 结果 好 得 多 ， 但 计算 量 仍然 相当 密集 。 此 外 ， 如 果 32 位 浮 点 表示 特 
征 图 ， 那 么 卷 积 层 的 输出 将 占用 200x150x100x32=9600 万 位 (相当 于 
1.4M) 的 内 存 。[ 站 这 仅 仅 是 一 个 例子 ， 如 果 训 练 批 次 包含 100 个 实 
例 ， 那 么 此 层 将 占用 超过 1GB 的 内 存 ! 


在 推断 过 程 中 ( 即 对 新 实例 的 预测 时 ，， 一 旦 完成 下 一 层 的 计算 ， 该 
层 对 内 存 的 占用 将 被 立即 释放 ， 所 以 你 只 需要 两 层 连 续 计 算 所 需要 的 
内 存 。 但 是 训练 时 ， 正 向 传递 期 间 所 有 的 计算 数值 都 需要 保留 下 来 以 
ae 因此 需要 的 内 存 大 小 至 少 为 所 有 层 所 需要 的 内 存量 之 
Ho 


A 各 时 训练 因为 内 存 不 足 而 月 演 可 以 尝试 减少 小 批 次 尺寸 ， 或者， 
使 用 减少 步 幅 或 删除 几 个 图 层 的 方式 降低 维度 ; 或者， 使 用 16 位 浮 点 
取代 32 位 浮 点 ; 或 者 ， 分 发 CNN 到 多 台 设 备 上 。 


现在 ， 我 们 来 看 看 CNN 的 第 二 个 常见 构建 块 : WE 


[1]. 卷 积 是 一 种 数学 运算 ， 它 将 一 个 函数 滑动 到 男 一 个 ， 并 计算 它们 还 

点 相 乘 的 积分 。 它 与 侍 里 叶 变 换 和 拉 普 拉 斯 变换 有 很 大 的 关联 ， 被 广 

泛 用 于 信号 处 理 。 卷 积 层 实际 上 使 用 交叉 关联， 这 与 卷 积 十 分 相似 
( 详 见 http:/goo.gMHAfxXd) ° 


[2] 一 个 有 150x100 个 神经 元 的 全 连接 层 ， 每 个 神经 元 都 连接 到 所 有 
150x100x3 个 输入 ， 将 有 1502x1002x3=675 万 个 参数 ! 


[23] IMB=1024kB=1024x1024bytes=1024x1024x8bits ° 

神化 层 

一 旦 知道 了 卷 积 层 如 何 工 作 ， 池 化 层 束 很 容易 理解 。 它 们 的 目的 是 通 

过 对 输入 图 像 进行 二 次 采样 以 减 小 计算 负载 、 内 存 利 用 率 和 参数 数量 
(从 而 降低 过 拟 合 的 风险 ) 。 减 小 输入 图 像 的 大 小 同样 可 以 使 神经 网 

络 容忍 一 定 的 图 像 移 位 (位置 不 变性 ) 。 


与 卷 积 层 一 样 ， 池 化 层 的 每 个 神经 元 都 连接 到 上 一 层 输 出 中 和 矩形 接收 
野 内 的 有 限 个 神经 元 上 。 与 之 前 一 样 ， 必 须 定 义 接收 野 的 大 小 、 步 幅 


和 填充 类 型 。 然 而 ， 池 化 神经 元 没有 权重 ， 它 做 的 所 有 事情 就 是 使 用 

聚合 函数 (比如 max 或 者 mean) 聚合 输入 。 图 13-8 显 示 了 一 个 最 常见 的 
WE: EKW (max pooling layer) 。 在 这 个 例子 中 ， 池 化 内 核 
为 2x2， 步 幅 为 2， 无 填充 。 注 意 ， 每 个 内 核 中 的 最 大 输入 值 才 会 进入 

下 一 层 ， 其 他 输入 将 会 被 丢弃 。 


图 13-8: RAWE ( 池 化 内 核 2x2， 步 幅 2， 无 填充 ) 


这 显然 是 一 个 非常 具有 破坏 力 的 层 : 即使 内 核 为 2x2， 步 幅 为 2， 两 个 
方向 的 输出 都 会 减 小 为 原来 的 /2 (所 以 它 的 面积 会 减 小 为 原来 的 
1/4) ， 轻 松 地 降低 了 75% 的 输入 值 。 


池 化 层 通 常 在 各 个 输入 通道 独立 工作 ， 因 此 输出 深度 与 输入 深度 相 
同 。 如 后 文 所 述 ， 你 可 以 选择 在 深度 维度 进行 琶 加 。 在 这 种 情况 下 ， 
图 像 的 空间 维度 (高 和 宽 ) 保持 不 变 ， 但 是 通道 数量 减 小 了 。 

使 用 TensorFlow 实 现 最 大 池 化 层 非 第 简单 。 如 下 代码 使 用 内 核 2x2、 步 
幅 2、 无 填充 创建 了 一 个 最 大 池 化 层 ， 然 后 应 用 到 数据 集 的 所 有 图 像 : 


[...] # load the image dataset, just like above 


# Create a graph with input X plus a max pooling layer 
X = tf.placeholder(tf.float32, shape=(None, height, width, channels) ) 


max_pool = tf.nn.max_pool(X, ksize=[1,2,2,1], strides=[1,2,2,1],padding="VALID" ) 


with tf.Session() as sess: 


output = sess.run(max_pool, feed_dict={X: dataset}) 


plt.imshow(output[0].astype(np.uint8)) # plot the output for the ist image 


plt.show() 


ksize 的 参数 包括 内 核 4 个 维度 的 输入 张 量 : [batch size, height, width, 
channels]。TensorFlow 目 前 还 不 文 持 多 个 实例 王 加 ， 所 有 ksize 的 第 一 个 
元 素 必 须 等 于 1。 此 外 ，TensorFlow 同 样 不 支持 空间 维度 和 深度 维度 的 
县 加 ， 所 有 ksize[1] 和 ksize[2] 必 须 同 时 等 于 1， 否 则 ksize[3] 必 须 等 于 1 。 


要 创建 一 个 平均 池 化 层 (average pooling layer) ， 只 需 轻 松 地 使 用 
avg pool () 画 数 代替 max_pool () 画 数 即 可 。 


现在 ， 你 已 经 知道 了 创建 卷 积 神经 网 络 需要 的 所 有 构建 块 。 接 下 来 ， 
我 们 来 看 看 如 何 组 猴 它 们 。 


CNN 架 构 


典型 的 CNN 架 构 堆 县 几 个 卷 积 层 〈 每 个 卷 积 层 通常 有 一 个 ReLU 层 ) ， 
然后 是 一 个 池 化 层 ， 接 着 是 另外 的 几 个 卷 积 层 (+ReLU) ， 之 后 是 为 
一 个 池 化 层 ， 以 此 类 推 。 在 经 过 网 络 处 理 的 过 程 中 ， 图 像 变 得 越 来 越 
小 ， 但 是 由 于 卷 积 层 它 会 变 得 越 来 越 深 ( 即 具有 更 多 的 特征 图 ) ， 如 
图 13-9 所 示 。 在 堆栈 的 项 部， 添加 了 由 儿 个 全 连接 层 组 成 的 常规 前 反馈 


神经 网 络 ， 最 后 的 层 输出 预测 例如， 输出 估计 类 概率 的 softmax 


层 


输入 Bin 池 化 ain iH PER 


图 13-9: 典型 的 CNN 架 构 


A SAAN A — AE OLE ee E ARARE o TS 
Baa 同时 减少 了 很 多 
计算 量 。 


这 么 多 年 来 ， 这 种 架构 的 各 种 形变 相继 开发 出 来 ， 使 得 这 一 领域 取得 
了 惊人 的 发 展 。 该 领域 的 一 个 度量 标准 是 计算 中 的 错误 率 。5 年 内 ， 图 
像 分 类 领域 的 top-5 计 算 错 误 率 从 26% 左 右 降 到 了 不 到 3%“。top-5 错 误 率 
是 系统 的 前 五 大 预测 不 包含 正确 答案 的 测试 图 像 的 数量 。 这 些 图 像 很 
大 (大 于 256 像 素 ) ， 有 1000 种 类 别 ， 其 中 有 些 图 片 非常 特殊 (比如 区 
es 。 研究 这 些 算 法 的 演进 是 理解 CNN 工 作 原 理 的 好 办 
y o 


RITE TH SRA LeNet-528%4 (1998) ， 然 后 是 ILSVRC 挑 战 的 三 
个 获奖 者 : AlexNet (2012) 、GoogLeNet (2014) 和 ResNet 
(2015) 。 


其 他 视觉 任务 


其 他 视觉 任务 ， 诸 如 对 象 检 测 和 定位 、 图 像 分 割 等 方向 ， 也 取得 了 慰 
人 的 进展 。 在 对 象 检测 和 定位 中 ， 和 神经 网 络 通 前 会 在 图 片 中 各 种 对 象 
周围 输出 一 系列 边框 。 例 如 ， 在 Maxine Oquab 等 人 2015 年 发 表 的 论文 


(https://g00.gVZKuDtv ) 中 每 个 对 象 类 输出 的 热点 图 (heat map) , 
BY Russell Stewart 等 人 2015 年 发 表 的 论文 (https:/goo.glupuHl2 ) 使 
用 CNN 的 组 合 来 检测 面部 和 一 系列 循环 神经 网 络 用 来 输出 围绕 在 其 周 
围 的 一 系列 边框 。 在 图 像 分 割 中 ， 网 络 输出 一 个 图 像 (通常 和 输入 图 
像 的 尺寸 相同 ， 其 每 个 像素 对 应 于 输入 图 像 像素 所 属 的 类 别 。 具 体 
例子 可 以 查看 Evan Shelhamer 等 人 发 表 于 2016 年 的 论文 ( 
https://go0.gV/7ReZgl) ° 


LeNet-5 


LeNet-5 可 能 是 最 广为人知 的 CNN 架 构 。 如 前 文 所 述 ， 它 是 在 1998 年 被 
Yann LeCun 创 建 的 ， 并 被 广泛 用 于 手写 数字 识别 (MNIST) 。 它 由 表 
13-1 所 示 的 各 层 组 成 。 


3213-1: LeNet-5 架 构 


E Rý ABRY 步 幅 AS 
OUT 全 连接 — 10 一 — REF 
F6 全 连接 — 8 一 — tah 
C5 卷 积 120 1x1 5X5 1 tan 
S4 平均 池 化 16 5X) 2%7 2 tanh 
(3 ER l6 10X10 5x5 l tanh 
S2 平均 池 化 6 14X14 x2 l tanh 
C] ER 6 28x28 5X5 1 tan 
In 输入 | 32x32 — = = 


这 里 有 一 些 额外 的 细节 需要 注意 : 


:MNIST 图 像 是 28x28 像 素 的 ， 但 是 它们 被 零 填充 到 32x32 像 素 ， 并 且 在 
输入 到 网 络 之 前 进行 了 归 一 化 处 理 。 网 络 的 其 余部 分 都 不 在 使 用 任何 


填充 ， 这 就 是 图 片 在 经 过 网 络 处 理 的 过 程 中 尺寸 不 断 缩 小 的 原因 。 


池 化 层 比 平常 和 微 复 洒 一 后 ， 每 个 仲 经 元 计算 输入 值 ， 然 后 将 结 琳 乘 
以 一 个 可 学 习 系 数 (每 个 特征 图 一 个 ) 并 添加 一 个 可 学 习 偏 置 参数 
(同样 ， 每 个 特征 图 一 个 ， 最 终 应 用 激活 函数 。 


:大 多 数 C3 图 中 的 神经 元 只 连接 到 S2 图 中 的 三 到 四 个 神经 元 (而 不 是 所 
有 的 六 个 S2 特 征 图 ) 。 详 细 信 息 ， 请 参阅 原始 文件 中 的 表 1 。 


-输出 层 有 一 些 特殊 ， 每 个 神经 元 输出 其 输入 同 量 和 权 值 向 量 之 间 的 网 
几 里 得 距离 的 平方 ， 而 不 是 计算 输入 和 权 值 同 量 之 间 的 点 乘 。 每 个 输 
Hh Bee A SR MP ERY FT ERE © FEI E E SON TE 
征 很 重要 的 ， 因 为 它 可 以 很 大 程度 上 减少 不 恨 预 测 ， 产 生 更 大 的 梯度 
并 且 因 此 更 快 地 收敛 。 


Yann LeCun 的 个 人 网 站 (http://yann.lecun.com/) (“LENET” 部 分 ) 有 
很 好 的 演示 LeNet-5 识 别 数字 的 例子 。 


AlexNet 


AlexNet CNN 架 构 (http:/goo.gLmWRBRp ) [由 以 大 比分 赢得 2012 年 
的 LSVRC 竞 赛 : 它 的 top-5 错 误 率 是 17%， 远 优 于 第 二 名 的 26%。 这 个 
架构 是 由 Alex Krizhevsky (算法 以 他 的 名 字 命 名 ) ` Ilya Sutskever 和 
Geoffrey Hinton 等 人 提出 的 。 它 和 LeNet-5 架 构 很 相似 ， 只 是 比 LeNet-5 
更 大 更 深 。 它 直接 将 卷 积 层 扒 县 到 其 他 层 之 上 ， 而 不 是 在 每 个 卷 积 层 
之 上 堆 著 池 化 层 。 表 13-2 显 示 了 AlexNet 架 构 。 


表 13-2: AlexNet 架 构 


AWRY E Aa 


OUT AER 一 1000 一 一 一 Softmax 
FO ”全 连接 一 4096 一 一 一 ReLU 
F8 全 连接 一 4096 一 一 一 ReLU 
C7 AR 256 18X13 3X3 1 SAME RLU 
C6 ÆR 384 BX 3 3X3 1 SAME ReLU 
CS AR 384 BX 13 3X3 1 SAME Re 
S4 BTML 26 13x13 3x3 2 VALD — 

C3 ë #R 256 2x2 5X5 1 SAME Re 
S) 最 大 池 化 96 17x27 3x3 2 WD ~ 

Cl #f 96 55x55 lIxll 4 SAME ReLU 


In ÑA 3 (RGB) 224X24 — eo a - 


为 了 减 小 过 度 拟 合 ， 作 者 们 使 用 了 两 种 我 们 前 面 提 到 的 正则 化 技术 : 
首先 ， 在 训练 期 间 和 输出 层 F8 和 F9 使 用 了 淘汰 策略 (淘汰 率 为 50%) ; 
~ EREE ` ZIPS > AARRE ERBEN VIRE 


在 对 C1 层 和 C3 层 的 ReLU 之 后 ，AlexNet 同 样 立即 使 用 了 具有 竞争 性 的 
归 一 化 步骤 ， 该 步骤 称 为 本 地 响应 归 一 化 (local response 
normalization， 人 简称 LRN) 。 这 种 形式 的 归 一 化 能 够 使 得 最 强烈 的 激活 
来 抑制 同一 位 置 但 是 在 不 同 特性 图 中 的 神经 元 (这 种 竞争 激活 特性 已 
经 在 生物 神经 元 中 被 观察 到 ) 。 这 种 特性 鼓励 不 同 特 征 图 变 得 专业 

化 、 推 动 它们 分 离 并 迫使 它们 去 探索 新 的 功能 ， 最 终 改 进 泛 化 。 公 式 
13-2 展 示 了 如 何 应 用 LRN 。 


公式 13-2: 本 地 响应 归 一 化 


bi 是 位 于 特征 图 i 的 u 行 、v 列 处 神经 元 的 归 一 化 输出 (注意 
中 ， 我 们 只 考虑 位 于 该 行 和 列 ， 因 此 没有 标 出 u 和 v) 


-ai 和 是 在 ReLu 之 后 、 归 一 化 之 前 对 神经 元 的 激活 。 
，a，B 和 "是 超 参 数 。k 被 称 为 俩 置 参数 ，r 被 称 为 深度 半径 。 
全 是 特征 图 的 数量 。 


例如 ， 如 有 果 r=2 并 且 神 经 元 被 强 激活 ， 那 么 它 将 抑制 位 于 其 上 面 和 下 面 
的 特征 图 中 的 神经 元 的 激活 。 


在 AlexNet 中 ， 超 参数 的 设置 如 下 : r=2，a=0.00002，B=0.75，k=1。 该 
步骤 可 以 使 用 TensorFlow 中 的 local_response_normalization () 函数 实 
F ° 
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HH Matthew Zeiler 和 Rob Fergus 开 发 的 AlexNet 的 变 体 ， 被 称 为 ZF Net, 
万 得 了 2013 年 的 ILSVRC 挑 战 。 它 的 本 质 就 是 AlexNet， 只 是 调整 了 一 
些 超 参数 (特征 图 的 数量 、 内 核 大 小 、 步 幅 等 。) 


GoogLeNet 


GoogLeNet 架 构 ( http://goo.gVtCFzVs ) 是 由 来 自 Google 人 研究 部 的 
Christian Szegedy 等 人 开发 的 ， [2]. 并 通过 将 Top- 5 错误 率 降 到 7% 而 赢得 
了 2014 年 的 ILSVRC 挑 战 。 这 一 伟大 的 性 能 很 大 程度 上 源 于 它 的 网 络 比 
以 前 的 CNN 更 深 ( 见 图 13-11) ?这 是 通过 一 个 称 为 初始 化 模块 
(inception modules) [3 引 的 子 网 使 之 成 为 可 能 ， 该 模块 使 得 GoogLeNet 
比 以 前 的 架构 更 加 有 效 地 使 用 参数 : GoogLeNet 实 际 具 有 的 参数 数量 z 


是 AlexNet 的 1/10 〈 大 约 是 600 万 个 参数 ， 而 不 是 AlexNet 的 6000 万 
UN. 
D) œ 


图 13-10 显 示 了 架构 的 初始 化 模块 。 符 号 “3x3+2 (S) ”表示 该 层 使 用 
3x3 内 核 ， 步 幅 为 2，SAME 填 充 。 输 入 信号 首先 被 复制 并 传送 到 四 个 不 
同 的 层 。 所 有 的 卷 积 函数 使 用 ReLu 激 活 函 数 。 注 意 ， 第 二 组 卷 积 层 使 
用 了 不 同 的 内 核 大 小 (1x1，3x3 和 5x5) ， 这 样 使 它们 能 够 捕捉 到 不 同 
尺寸 的 图 像 模式 。 还 需 注意 的 是 ， 每 层 都 是 步 长 为 1， 填 充 为 SAAME 
(即使 是 最 大 池 化 层 ) ， 所 以 它们 的 输出 都 和 其 输入 有 着 相同 的 高 和 
宽 。 这 使 得 它 可 以 沿 着 最 终 的 深度 级 联 层 (depth concat layer) 中 的 深 
度 维度 连接 所 有 输出 〈“ 即 从 所 有 的 四 个 顶部 的 卷 积 层 堆 县 特征 图 ) 。 
该 级 联 层 可 以 使 用 TensorFlow 中 的 concat () 函数 实现 ， 其 中 axis=3 
(axis 表 示 深 度 ) 。 


b DALAH 


卷 积 最 大 池 化 
1x1 +4(S) | | 1x144(S) | | 3x3H(9) 


图 13-10: 初始 化 模块 


你 可 能 疑惑 为 什么 初始 化 模块 用 内 核 为 1x1 的 郑 积 层 。 当 然 这 些 层 不 能 
捕捉 到 任何 特征 ， 因 为 它们 一 次 只 能 看 见 一 个 像素 。 事 实 上 ， 这 些 层 
的 存在 有 两 个 目的 : 


SB, ED RACE A Bi ARERR ALD, VE EELS EAI 
维度 。 在 3x3 和 5x5 的 卷 积 层 之 前 使 用 该 层 特别 有 用 ， 因 为 这 些 是 计算 
代价 特别 高 的 层 。 


:第 二 ， 每 个 卷 积 层 对 〈[1x1，3x3] 和 [1x1，5x5]) 的 作用 就 如 同一 个 单 
独 且 强 大 的 郑 积 层 ， 用 来 捕 提 更 加 复 洒 的 模式 。 实 际 上 ， 这 些 卷 积 层 
对 能 够 扫 朱 图像 中 的 两 层 神经 网 络 ， 而 不 是 简单 的 图 像 线性 分 类 天 

(如 单个 卷 积 层 所 做 的 一 样 ) 。 


人 答 而 言 之 ， 你 可 以 将 整个 初始 化 模块 看 成 是 一 个 超级 卷 积 层 ， 它 能 够 
输出 一 些 用 以 捕 提 各 种 斥 寸 复杂 模式 的 特征 图 。 


久生 个 关机 层 的 卷 积 内 核 数量 是 一 个 超 参 数 。 不 率 的 是 ， 这 意味 着 
每 个 初始 层 都 有 6 个 或 者 更 多 个 超 参数 。 


我 们 来 看 看 GoogLeNet 的 CNN 架 构 〈 见 图 13-11) 。 由 于 它 太 深 了 ,我 
们 不 得 不 使 用 三 列 来 展示 ， 但 是 实际 上 GoogLeNet 是 由 很 多 层 堆 县 起 来 
的 一 个 很 高 的 列 ， 其 中 包括 9 个 初始 化 模块 (每 个 有 转 简 图 案 的 框 ) ， 
其 中 每 个 包含 三 层 。 每 个 卷 积 层 和 每 个 池 化 层 输出 的 特征 图 的 数量 显 
示 在 内 核 尺 寸 之 前 。 初 始 化 模块 上 的 6 个 数字 表示 模块 中 每 个 卷 积 层 输 
出 特征 图 的 数量 (与 图 13-10 的 顺序 相同 ) 。 注 意 ， 所 有 卷 积 层 都 有 
ReLU 激 活 函 数 。 
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图 13-11: GoogLeNet 架 构 


让 我 们 来 看 看 这 个 网 络 结构 ; 


.为 了 减少 计算 量 ， 前 两 层 将 图 像 的 高 度 和 


除 以 16) 


宽度 分 别 除 以 4 (因此 面积 被 


- 接 下 来 ， 一 个 本 地 响应 标准 化 层 确 保 以 前 的 图 层 学 习 各 种 各 样 的 特征 


〈( 如 前 所 述 ) 。 


-后面 是 两 个 卷 积 层 ， 其 中 第 一 个 像 瓶 贷 层 (bottleneck layer) 一 样 。 如 
前 所 述 ， 你 可 以 把 这 一 对 看 作 是 一 个 单一 智能 卷 积 层 。 


同样， 本 地 员 应 标准 化 层 可 确保 前 面 的 独 层 捕捉 到 各 种 各 样 的 模式 。 


. 接 下 来 ， 为 了 再 次 增加 计算 速度 ， 最 大 池 化 层 将 图 像 的 高 度 和 宽度 减 
小 为 原来 的 1/2。 


然后 是 九 个 堆 码 的 初始 化 模块 。 为 了 减 小 维度 和 加 速 网 络 ， 它 们 与 几 
KLEE o 


下 一 步 ， 平 均 池 化 层 使 用 具有 特征 图 尺寸 相同 、 填 充 为 VALID 的 内 
核 ， 输 出 1x1 的 特征 图 : 这 种 令 人 称奇 的 策略 称 为 全 局 平均 池 化 
(global average pooling) 。 它 有 效 强 制 前 面 的 各 层 产 生 特 征 图 ， 这 些 
特征 图 实际 上 是 每 个 目标 类 的 置信 图 (因为 其 他 类 型 的 特征 将 会 被 该 
平均 步骤 破坏 ) 。 这 样 就 无 须 在 CNN 顶 部 配置 儿 个 完全 连接 层 (如 
o ， 从 而 大 大 减 小 了 网 络 中 的 参数 数量 ， 并 且 降 低 了 过 度 配 置 
和 风险 。 


.最 后 一 层 是 不 言 而 喻 的 ， 放弃 正则 化 ， 然 后 使 用 一 个 具有 softmax 激 活 
画 数 的 完全 连接 层 来 输出 估计 类 的 概率 。 


这 张 图 是 稍微 简化 版 的 。 原 始 的 GoogLeNet 架 构 还 包括 位 于 第 三 个 和 第 
六 个 初始 化 模块 之 上 的 两 个 辅助 分 类 侨 ， 由 一 个 平均 池 化 层 ， 一 个 卷 

积 层 ， 两 个 全 连接 层 ， 以 及 一 个 softmax 激 活 层 组 成 。 在 训练 期 间 ， 它 

们 的 损失 ( 按 比例 缩小 70%) 被 加 到 整体 损失 中 。 目 的 是 解决 消失 的 梯 
度 问题 和 规范 网 络 。 然 而 ， 结 果 表 明 其 作用 相对 较 小 。 


ResNet 


最 后 而 且 重 要 的 一 个 框架 是 由 Kaiming He 等 人 开发 [和 并 获得 2015 年 
ILSVRC 竞 赛 冠 军 的 残 差 网 络 (http:/goo.gl4puHU5 ) ， 又 称 为 
ResNet。 它 使 用 了 一 个 由 152 层 组 成 的 非常 深 的 CNN， 使 得 Top-5 错 误 
率 降 到 3.6%。 能 够 训练 如 此 深层 网 络 的 关键 是 使 用 了 跳 过 连接 (也 称 
为 快捷 连接 ) : 输入 到 一 个 层 中 的 信号 也 被 添加 到 位 于 堆栈 上 方 的 层 
的 输出 端 。 让 我 们 看 看 这 个 方法 为 何如 此 有 效 。 


训练 神经 网 络 时 ， 目 标 是 使 目标 函数 h (x) 模型 化 。 如 果 将 输入 x 添 加 
到 网 络 的 输出 ( 即 添加 跳 过 连接 ) ， 则 网 络 将 被 强制 模型 化 为 f (x) 
=h (x) -x， 而 不 是 h (x) 。 这 被 称 为 残 差 学 习 〈 见 图 13-12) 。 
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图 13-12: REZY 


初始 化 一 个 利 规 神经 网 络 时 ， 它 的 权重 接近 于 零 ， 所 以 网 络 的 输出 值 
也 接近 于 零 。 如 采 添 加 一 个 跳 过 连接 ， 那 么 生成 的 网 络 只 是 输出 一 个 
输入 的 复制 。 换 句 话 说 ， 它 最 初 对 认证 函数 建 模 。 如 果 目 标 函 数 接近 
于 认证 函数 (通常 是 这 种 情况 ) 将 加 快 训练 速度 。 


此 外 ， 如 末 深 加 多 个 跳 过 连接 ， 即 使 一 些 层 的 学 习 还 没有 开始 ， 网 络 
就 可 以 开始 处 理 进 程 (参见 图 13-13) 。 由 于 跳 过 连接 ， 信 号 可 以 轻松 
地 跨越 这 个 网 络 。 深 层 残 关 网 络 可 以 看 作 是 一 组 残 老 单元 ， 每 个 残 产 
单元 是 一 个 具有 跳 过 连接 的 小 型 神经 网 络 。 
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图 13-13: 常规 深层 神经 网 络 ( 左 ) 和 深层 残 差 网 络 (A) 


现在 来 看 看 ResNet 的 架构 ( 见 图 13-14) 。 它 的 架构 特别 简单 ， 开 始 和 
结束 与 GoogLeNet 特 别 相似 (除了 没有 淘汰 层 ) ， 中 间 是 一 个 非常 深 的 
简单 残 差 单元 。 每 个 残 差 单元 由 两 个 具有 分 批 归 一 化 (BN) 和 ReLU 激 
使 用 了 内 核 并 保留 了 维度 空间 ( 步 幅 为 1， 填 充 
为 SAME) 。 
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13-14: ResNet 架 构 


注意 ， 特 征 图 的 数量 是 每 个 残 差 单元 的 二 倍 ， 同 时 它们 的 高 度 和 宽度 

减 半 (使 用 步 幅 为 2 的 卷 积 层 ) 。 当 这 种 情况 发 生 时 ， 输 入 不 能 直接 添 

加 到 残 差 单元 的 输出 上 ， 因 为 它们 不 具有 相同 的 形状 (例如 ， 这 个 问 

题 影响 图 13-14 中 用 虚线 第 头 表 示 的 跳 过 连接 ) 。 为 了 解决 这 个 问题 ， 

o 步 幅 为 2 和 输出 正确 数量 特征 图 的 1x1 卷 积 层 〈 见 
13-15 


ResNet-34 是 具有 34 层 的 ResNet 〈 只 计算 卷 积 层 和 全 连接 层 ) ， 它 包含 


了 3 个 输出 64 个 特征 图 的 残 差 单元 (RU) ，4 个 包含 129 个 特征 图 的 
RU，6 个 包含 256 张 特征 图 的 RU， 和 3 个 包含 512 张 特征 图 的 RU © 
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图 13-15: 当 改 变 特征 图 尺寸 和 深度 时 的 跳 过 连接 


更 深层 的 ResNets， 例 如 ResNet-152， 使 用 的 残 差 单元 会 略 有 不 同 。 它 
们 使 用 了 3 个 卷 积 层 : 首先 是 一 个 有 64 张 〈 小 于 4 倍 ) 特征 图 的 1x1 卷 积 
ZERE (如 前 文 所 讨论 的 ) ， 然 后 是 一 个 有 64 张 特征 图 的 3x3 卷 
积 层 ， 最 后 是 另 一 个 有 256 张 〈64 的 4 倍 ) 特征 图 的 1x1 卷 积 层 来 恢复 原 
台 深度 。ResNet-152 包 含 了 三 个 这 样 的 输出 256 张 特征 图 的 RU， 然 后 8 
个 输出 512 张 特征 图 的 RU， 最 后 3 个 输出 2048 张 特征 图 的 RU e 


正如 你 看 到 的 ， 该 领域 发 展 迅速 ， 每 年 都 会 有 各 种 织 构 顺 泣 而 出 。 一 
个 明显 的 趋势 是 ，CNN 的 深度 变 得 越 来 越 深 同时 越 来 越 轻 量 ， 需 
的 参数 越 来 越 少 。 到 目前 为 止 ，ResNet 是 最 强大 同时 又 最 简单 的 架 
构 ， 在 当下 来 说 特别 实用 。 但 是 请 持续 关注 每 年 的 LSVRC。2016 年 的 
获奖 者 是 来 自 中 国 的 团队 Trimps-Soushen， 其 错误 率 惊 人 地 达到 
2.99%。 为 了 达到 这 一 点 ， 他 们 训练 了 以 前 各 个 模型 的 组 合 ， 并 把 它们 
加 入 一 个 合集 中 ，。 根据 任务 的 不 同 ， 减 低 错误 率 有 时 需要 、 有 时 不 需 
要 额外 的 复杂 性 。 


可 能 还 有 一 些 你 感 兴趣 的 其 他 架构 ， 尤 其 是 VGGNet ( 
http://go0.g/QcMjXQ.) EL (获得 2014 年 的 ILSVRC 亚 军 ) ` Inception- 
v4 (http://goo.gVAk2vBp) E- (融合 了 GoogLeNet 和 ResNet， 在 
ImageNet 分 类 取得 了 Top-5 错 误 率 接近 3% 的 成 绩 ) 。 


` 实现 刚刚 讨论 的 各 种 CNN 架 构 没 有 什么 特别 的 地 方 。 我 们 很 早 就 看 
到 了 如 何 去 构 建 所 有 的 单个 构建 模块 ， 现 在 需要 做 的 只 是 把 它们 组 装 
到 一 起 来 创建 一 个 需要 的 架构 。 我 们 将 在 后 面 的 练习 中 构建 一 个 
ResNet-34， 完 整 的 代码 可 以 在 Jupyter 笔 记 本 中 找到 。 


TensorFlow 卷 积 操作 
TensorFlow 还 提供 了 几 种 其 他 卷 积 层 : 


-conv1d () 用 于 一 维 输入 卷 积 层 。 这 个 很 有 用 ， 比 如 在 自然 语言 处 理 
中 ， 旬 子 有 可 能 补 表 示 为 一 维 数 组 ， 同 时 接收 野 履 盖 几 个 相 邻 的 单 


词 。 
.conv3d () 用 于 创建 三 维 输入 卷 积 层 ， 例 如 三 维 PET 扫 描 。 


-atrous_conv2d () 用 于 创建 带 筷 卷 积 层 (atrous convolutional layer) 
(catrous" 是 法 语 ， 意 为 " 带 孔 ”。) 这 相当 于 使 用 了 一 个 通过 为 行 和 列 
插入 0 值 (该 0 值 即 相当 于 了 筷 ) 的 扩大 器 的 常规 卷 积 层 。 例 如 ， 一 个 1x3 
的 过 小强 [[1，2，3]] 可 能 被 扩 大 4 倍 ， 生 成 一 个 扩大 器 [[1，0，0，0， 
2，0，0，0，3]] 。 该 函数 使 得 卷 积 层 在 没有 计算 代价 和 额外 参数 的 情 
况 下 ， 扩 大 了 接收 野 。 


:conv2d_transpose () 用 于 创建 转 置 卷 积 层 ， 有 时 又 称 为 去 卷 积 层 ， 加 
用 来 进行 图 像 提升 采样 。 它 通过 在 输入 之 间 插 入 零 来 实现 功能 ， 所 以 
可 以 把 它 看 作 是 一 个 使 用 了 分 步 步 长 的 常规 卷 积 层 。 提 升 采样 在 图 像 
分 割 中 是 非常 有 用 的 : 例如 ， 在 典型 的 CNN 中 ， 网 络 中 的 特征 图 会 越 
2 如 果 想 要 输出 一 个 与 输入 同 尺寸 的 图 像 ， 就 需要 提升 采样 


-depthwise_conv2d () 用 来 创建 深度 卷 积 层 ， 将 每 个 过 滤器 应 用 到 每 个 
独立 的 输入 通道 。 因 此 ， 如 果 有 f ,个 过 滤器 和 f ,个 输入 通道 ， 那 么 将 
输出 f ,xf , 张 特 征 图 。 

-separable_conv2d () 用 于 创建 可 分 离 卷 积 层 ， 其 首先 类 似 一 个 深度 卷 


积 层 ， 然 后 应 用 一 个 卷 积 层 来 输出 特征 图 。 这 使 得 过 滤 絮 可 以 应 用 到 
任意 的 输入 通道 。 
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练习 

1 一 个 具有 全 连接 DNN 的 CNN 在 图 像 分 类 方面 的 优势 是 什么 ? 

2 一 个 由 三 个 卷 积 层 组 成 的 CNN， 每 个 卷 积 层 的 内 核 为 3x3、 步 幅 为 
2、 填 充 类 型 为 SAME。 最 低层 输出 100 张 特征 图 ， 中 层 输 出 200 张 特征 
图 ， 最 高 层 输出 400 张 特征 图 。 输 入 图 像 是 200x300 像 素 的 RGB 图 像 。 
CNN 的 参数 总 数 是 多 少 ? 如 果 使 用 32 位 浮 点 ， 在 进行 单个 示例 预测 
时 ， 该 网 络 所 需 的 最 小 RAM 是 多 少 ? 当 对 50 张 图 像 进行 迷你 批量 训练 
时 ， 需 要 的 最 小 RAM 又 是 多 少 ? 


3. 如 果 GPU 在 训练 CNN 过 程 中 内 存 不 足 ， 为 了 解决 该 问题 ， 你 可 以 做 的 
五 件 事 是 什么 ? 


4. 为 什么 要 使 用 最 大 池 化 层 ， 而 不 是 具有 相同 步 幅 的 卷 积 层 ? 
5. 什 么 时 候 需 要 添加 本 地 啊 应 归 一 化 层 ? 


6. 与 LeNet-5 相 比 ， 你 能 罗列 出 AlexNet 的 创新 之 处 吗 ? GoogLeNet 和 
ResNet 的 主要 创新 是 什么 ? 


7. 构 建 一 个 自己 的 CNN， 并 党 试 在 MNIST 上 获得 最 高 的 准确 性 

8. 使 用 Inception v3 分 类 大 图 。 

a. 下 载 各 种 动物 的 图 像 。 在 Python 中 加 载 它们 ， 例 如 使 用 
matplotlib.image.mpimg.imread () KËT -o MARB EARTE 
299x299 像 素 ， 且 只 有 三 个 通道 (RGB) ， 没 有 透明 通道 


b. 下 载 最 新 的 预 训练 的 Inception v3 模 型 : 检查 点 可 以 在 
https:/goo.gUnxSQyVvlL 上 获得 。 


c. 通 过 调用 inception_v3 () 画 数 创 建 Inception v3 模型 ， 如 下 所 示 。 这 
步 必须 在 由 inception_v3_arg_scope () 汞 数 创 造 的 参数 范围 内 完成 。 此 
外 ，is_training=False 并 且 num_classes=1001， 如 下 所 示 : 


from tensorflow.contrib.slim.nets import inception 


import tensorflow.contrib.slim as slim 


X = tf.placeholder(tf.float32, shape=[None, 299, 299, 3]) 
with slim.arg_scope(inception.inception_v3_arg_scope()): 
logits, end_points = inception.inception_v3( 
X, num_classes=1001, is_training=False) 
predictions = end_points["Predictions"] 


saver = tf.train.Saver() 


d. 打 开 一 个 会 话 ， 并 使 用 Saver 来 还 原 预 匈 下 载 的 预 训练 模型 检查 点 。 


e. 运 行 模 型 ， 对 准备 的 图 像 进 行 分 类 。 显 示 每 个 图 像 的 前 五 个 预测 以 及 
预测 的 概率 (可 用 类 名 可 以 从 nttps://g00.gV/brXRtZ 获取 ) 。 模 型 的 准 
确 率 有 多 少 ? 


9. 传 递 大 图 像 分 类 学 习 知 识 。 


a. 创 建 一 个 训练 集 ， 每 个 类 至 少 包 含 100 张 图 像 。 例 如 ， 你 可 以 根据 位 
A (海滩 、 山 脉 、 城 市 等 ) 对 自己 的 图 像 进 行 分 类 ， 或 者 使 用 现 有 数 
据 集 ， 例 如 花 数 据 集 (https:Vgoo.gUEgJVXZ ) 或 MFT 的 地 点 数据 集 ( 
http://places.csail.mit.edu/ ) 《〈 需 要 注册 ， 数 据 量 巨大 ) ° 


b. 写 一 个 预 处 理 步 骤 ， 将 图 像 的 尺寸 调整 为 299x299， 有 具有 一 些 随 机 值 
用 于 数据 增加 。 


c. 使 用 上 一 个 练习 中 预 训 练 的 Inception v3 模 型 ， 将 所 有 层 冻 结 到 瓶颈 层 
( 即 输出 层 的 前 一 个 层 ) ， 用 适当 数量 的 新 分 类 任务 输出 替换 输出 层 
(例如 ， 花 数据 集 具 有 五 个 互 斥 类 ， 所 以 输出 层 必 须 具 有 五 个 神经 

元 ， 并 使 用 softmax 激 活 函 数 ) 。 


d 将 数据 集 分 为 训练 集 和 测试 集 。 在 训练 集 上 训练 模型 ， 在 测试 集 上 进 
行 评估 。 


10. 通 读 TensorFlow 的 DeepDream 教 程 《https:/goo.gU4b2s6g.) 。 这 是 一 
种 束 悉 各 种 可 视 化 的 CNN 学 习 模 型 和 使 用 深度 学 习 生 成 乙 术 的 有 趣 方 


练习 的 解决 方案 详 见 附录 A 。 
第 14 章 ”循环 神 经 网 络 


击 球 手 击 中 球 。 你 立刻 开始 奔跑 ， 并 预测 球 的 轨迹 。 你 跟踪 它 并 且 调 
整 你 的 运动 方向 ， 最 后 在 掌声 中 抓 仁 了 球 。 不 论 你 是 在 完成 一 次 到 请 
的 判决 还 是 预测 早餐 中 咖啡 的 味道 ， 预 测 未 来 是 我 们 总 在 做 的 事情 。 
在 本 章 中 ， 我 们 将 讨论 循环 神经 网 络 (RNN) ， 它 是 一 种 可 以 预测 未 
来 的 神经 网 络 〈 至 少 是 预测 某 些 点 ) 。 它 们 可 以 分 析 时 间 序 列 数据 ， 

比如 股票 价格 ， 然 后 告诉 你 什么 时 候 该 买 或 者 卖 。 在 自动 芍 驶 系统 

中 ， 它 们 可 以 预测 汽车 的 轨迹 来 帮 你 避免 事故 。 一 般 来 说 ， 它 们 可 以 
工作 在 任意 长 度 的 序列 上 ， 而 不 是 像 我 们 目前 为 止 讨 论 的 所 有 网 络 那 


样 的 固定 长 度 输入 。 例 如 ， 你 可 以 使 用 句子 、 文 档 ， 或 者 语音 样本 等 
作为 输入 ， 使 其 对 目 然 语 言 处 理 系统 有 用 ， 比 如 目 动 翻译 、 语言 转换 
成 文本 ， 或 者 情感 分 析 (例如 阅读 电影 评论 、 提 取 评 委 对 电影 的 感 


受 ) 等 系统 。 


此 外 ，RNN 的 预测 能 力也 使 得 它们 能 够 产生 惊人 的 创造 力 。 你 可 以 要 
求 它 们 预测 最 有 可 能 出 现在 旋律 中 的 下 一 个 音符 是 什么 ， 然 后 随机 地 
选择 其 中 一 个 音符 并 播放 它 。 之 后 重复 这 一 动作 ， 继 续 要 求 网 络 预测 
下 一 个 音符 并 播放 。 在 你 知道 它 前 ， 网 络 已 经 组 成 了 一 段 旋律 ， 例 如 
谷歌 的 Magenta 项 目 (https://magenta.tensorflow.org/) 开发 的 东西 ( 
http://g00.gV/IxIL1V_) 。 类 似 地 ，RNN 可 以 产 出 句子 ( 
http://goo.g/onkPNd ) 、 图 标 (http://goo.gVNwx7Kh ) 等 。 虽 然 结 果 
人 上 水 士 比 亚 或 者 葛 扎 特 ， 但 是 谁 又 能 预测 几 年 后 将 会 发 生 什么 
WE? 


本 章 将 介绍 RNN 的 基本 概念 、 面 临 的 主要 问题 (也 就 是 第 11 章 讨论 的 
消失 /爆炸 梯度 问题 ) 以 及 广泛 应 用 于 LSTM 和 GRU 单 元 的 解决 方案 。 
与 往常 一 样 ， 我 们 将 展示 如 何 使 用 TensorFlow 实 现 RNN。 最 后 ， 我 们 会 
看 一 下 机 器 翻译 系统 的 架构 。 


循环 神经 元 


到 现在 为 上 上， 我 们 主要 关注 前 馈 神 经 网 络 ， 其 激活 流 只 在 一 个 方 回 
上 ， 从 输入 层 到 输出 层 〈 除 了 附录 E 中 的 几 个 网 络 ) 。 除 了 具有 反 向 连 
接 外 ， 循 环 神经 网 络 与 前 馈 神 经 网 络 非常 相似 。 我 们 来 看 一 个 最 简单 
的 RNN， 如 图 14-1 所 示 ， 仅 由 一 个 神经 元 组 成 ， 它 目 己 接收 输入 ， 产 
生 输 出 ， 然 后 将 输出 返回 其 本 身 。 在 每 一 个 时 间 和 迭代 t (也 称 为 一 

帧 ) ， 这 个 循环 神经 元 接收 输入 x (t) 和 上 一 个 时 间 迭 代 它 自己 的 输出 
y (er) “我 们 可 以 使 用 时 间 轴 来 代表 这 个 微小 的 网 络 ， 如 图 14-1 

(A) 所 示 。 这 种 方式 被 称 为 按照 时 间 展 开 网 络 。 


图 14-1: 一 个 循环 神经 网 络 ( 左 ) ， 按 照 时 间 展 开 图 ( 右 ) 
你 可 以 轻松 创建 一 个 一 层 循环 神经 元 。 如 图 14-2 所 示 ， 在 每 一 个 时 间 先 
代 t， 每 个 神经 元 同时 接收 输入 向 量 x (i) 和 前 一 个 时 间 迄 代 的 输出 向 
量 y en 。 注 意 ， 现 在 输入 和 输出 都 是 向 量 ( 当 只 有 一 个 神经 元 时 ， 
输出 是 标量 ) 。 


Yo Yn) YQ 


bi 


图 14-2: 一 层 循环 神经 元 (AL) ， 按 照 时 间 展 开 图 A) 


每 个 循环 神经 元 有 两 个 权重 ， 一 个 是 输入 x (，， 另 一 个 是 前 一 个 时 间 
迭代 的 输出 y (4) 。 我 们 把 这 两 个 权重 向 量 称 为 w 、 和 w ,。 单 个 循环 
神经 元 的 输出 可 以 如 你 所 期 望 的 那样 计算 出 来 ， 如 公式 14-1 所 示 (pb 是 
偏差 系数 ， 少 是 激活 画 数 ， 如 ReLUD) 。 


公式 14-1: 单个 实例 的 单个 循环 神经 网 络 的 输出 
7 T 
Yi) PLX, l W, T Y (1 ' " t ) 
a ee 
公式 14-2: 一 个 小 批 次 网 络 中 所 有 实例 的 一 层 循环 神经 网 络 的 输出 
W, 
"| 
(t) 是 一 个 mxn peurons ERE, BE TEER ENER EWEN A 
的 ENE Eke ees ae Mesa 圣 元 的 数 


= 


量 ) 


X o 是 一 个 mxninmpus 抢 阵 ， 包 含 了 所 有 实例 的 输入 ninpus 和 是 输入 特 
征 的 数量 ) 。 


inputs xn neurons 算 阵 ， 包 售 了 当前 时 间 达 代 输入 的 连接 权 


Yi = p(X OM, + Yii- W +b) 5 o([X,, Yous | i W +b) 其 中 W = 


-Ws 十 一 个 
y 是 一 个 n peurons xnneurons 窍 陡 ， 包 合 了 前 一 个 时 间 迭 代 和 输出 的 连接 权 


EAE W 、 和 W y 通 党 被 连接 成 一 个 形状 为 (n inputs a xn 
neurone 的 单独 权重 矩阵 ( 见 公 式 14-2 的 第 二 行 ) 。 


b 是 一 个 大 小 为 n peurons A, LE EMC ie ARAL 


注意 ，Y q 是 函数 X 4) SY Gay 之 和 , Y ap 是 X e) FY e 
) ZM, Y (2) 是 X a) FY (3) 之 和 ， 以 此 类 推 。 当 时 间 t= Pi 

Ye 个 与 所 有 输入 相关 的 函数 〈 即 X (0 X ao es 

) 。 在 第 一 个 时 间 迭 代 t=0 时 ， 这 里 没有 之 前 层 的 输出 所 以 之 时候 

们 的 值 被 假设 为 全 零 。 


记忆 车 元 

循环 神经 元 在 时 间 迭 代 t 的 输出 是 之 前 时 间 迭 代 所 有 输入 的 函数 ， 你 可 
以 说 它 是 一 种 形式 的 记忆 。 那 些 能 够 保存 一 些 时 间 远 代 的 状态 的 神经 
网 络 称 为 记忆 单元 《或 者 简单 的 单元 ) 。 单 个 循环 神经 元 或 者 一 层 循 


环 神经 元 是 非常 基本 的 单元 ， 在 本 章 的 后 续 内 容 中 ， 我 们 会 看 一 些 更 
加 复杂 和 强大 的 单元 类 型 。 


通常 一 个 单元 在 时 间 和 迭代 t 的 状态 被 记 作 h og) (h 代 表 “ 隐 藏 ") 表示 在 
某 个 时 间 迭 代 的 输入 和 它 在 前 一 个 时 间 和 迭代 的 状态 的 函数 : h (，=f 
(h Gi) > X o) ° CEREA Hy 4， 同样 是 前 一 个 时 间 磊 
代 的 状态 和 当前 的 输入 的 函数 。 在 我 们 目前 所 讨论 的 基本 单元 的 情况 
下 ， 和 输出 基本 等 于 状态 ， 但 是 在 更 加 复杂 的 单元 中 情况 就 不 是 这 样 
了 ， 如 图 14-3 所 示 。 


h 
pog o] 
Xo % % 


—— i 


图 14-3: 一 个 单元 的 隐藏 状态 和 它 的 输出 可 能 不 同 
输入 和 输出 序列 


RNN 可 以 同时 获取 输入 序列 并 产生 输出 序列 ( 见 图 14-4 左 上 方 网 

络 ) 。 例 如 ， 这 种 类 型 的 网 络 对 于 预测 股票 价格 等 时 间 序列 是 有 用 
的 ， 提供 过 去 N 天 的 价格 ， 它 必须 输出 未 来 一 天 的 价格 〈 即 从 N-1 天 以 
前 到 明天 的 价格 ) 。 


或 者 ， 提 供给 网 络 一 系列 和 输入， 并且 忽略 除了 最 后 一 个 之 外 的 所 有 输 
出 〈 见 图 14-4 右 上 方 的 网 络 ) 。 换 句 话 说， 这 是 一 个 序列 到 向量 网 络 。 
例如 ， 输 入 给 网 络 一 个 电影 评论 相关 的 单词 序列 ， 网 络 输出 一 个 欢迎 
度 评分 (例如 ，-1 (厌恶 ) 到 +1 (EW) ) 。 


相反 ， 可 以 在 第 一 个 时 间 迭 代 给 网 络 输入 一 个 单词 《其 他 时 间 和 迭代 输 
AREF) ， 并 让 它 输 出 一 个 序列 〈 见 图 14-4 左 下 方 网 络 ) 。 这 是 一 个 
向 量 到 序列 网 络 。 例 如 ， 输 入 可 以 是 一 个 图 像 ， 输 出 是 该 图 像 的 标 
题 。 

最 终 ， 会 有 一 个 被 称 为 编码 器 的 序列 到 向 量 网 络 和 一 个 被 称 为 解码 絮 
( 见 图 14-4 右 下 方 的 网 络 ， 的 向 量 到 序列 网 络 。 例 如 ， 该 网 络 可 以 用 于 
将 句子 从 一 种 语言 翻 详 成 为 一 种 语言 。 为 网 络 输入 一 种 语言 的 句子 ， 
编码 絮 会 将 其 转换 成 单个 同 量 来 表示 ， 随 后 解码 如 将 这 些 疝 量 解码 成 


APERET o APRI RER Sa FPS ee NA, TEL 
来 要 比 单独 的 序 列 到 序列 的 RNN 网 络 (如 图 14-4 左 上 方 网 络 所 示 ) 好 

得 多 。 因 为 句子 中 的 最 后 一 个 单词 也 可 以 影响 第 一 个 单词 的 翻译 ， 所 
以 在 翻译 整个 句子 之 前 需要 知道 整个 句子 的 内 容 。 


听 起 来 特别 令 人 兴奋 ， 那 么 让 我 们 开始 编码 吧 ! 


O M OO 出 (0) M 的 B) 
编码 器 RDA 
| ’ j J 
Yo Y Yo Yo Yo a * 


sesso ee eee Se eee eee eee 


图 14-4: 序列 到 序列 网 络 (左上 ) ， 序 列 到 向 量 网 络 〈 右 上 ) ， 向 量 到 
序列 网 络 (左下 ) ， 延 迟 的 序列 到 序列 网 络 ATF) 


[1] 注意 ， 许 多 人 研究 人 员 更 喜欢 使 用 双 切 曲线 (tanh) 作为 RNN 的 激活 
J 而 不 是 使 用 ReLU 激 活 落 数 。 例 如 ，Vu Pham 等 人 的 论 


‘Dropout Improves Recurrent Neural Networks for Handwriting 


Recognition”。 然 而 ， 基 于 ReLU 的 RNN 也 是 有 可 能 的 ， 可 以 参见 Quoc 
VLe 等 人 的 论文 “A Simple Way to Initialize Recurrent Networks of 
Rectified Linear Units” ° 


TensorFlow 中 的 基本 RNN 


首先 ， 为 了 更 好 地 了 解 它们 的 运行 原理 ， 我 们 先 不 用 TensorFlow 的 任何 
RNN 操 作 来 实现 一 个 最 简单 的 RNN 网 络 。 我 们 将 使 用 tanh 激 活 函 数 创 
建 一 个 由 5 个 神经 元 组 成 的 一 层 RNN。 假 设 RNN 只 运行 两 个 时 间 和 迭代 ， 
每 个 时 间 和 迭代 输入 一 个 大 小 为 3 的 向 量 。 下 述 代码 通过 展开 两 个 时 间 适 
代 构 建 这 个 RNN 网 络 : 


n_inputs = 3 


n_neurons = 5 


XO = tf.placeholder(tf.float32, [None, n_inputs]) 


X1 = tf.placeholder(tf.float32, [None, n_inputs]) 


Wx = tf.Variable(tf.random_normal(shape=[n_inputs, n_neurons],dtype=tf.float32) ) 


wy = tf.Variable(tf.random_normal(shape=[n_neurons, n_neurons],dtype=tf.float32) ) 


b = tf.Variable(tf.zeros([1, n_neurons], dtype=tf.float32) ) 


YO = tf.tanh(tf.matmul(X0, Wx) + b) 


Y1 = tf.tanh(tf.matmul(YO, Wy) + tf.matmul(X1, Wx) + b) 


init = tf.global_variables_initializer() 


这 个 网 络 看 起 来 特别 像 一 个 两 层 前 馈 神 经 网 络 ， 但 还 是 有 一 些 不 同 : 
第 一 ， 两 层 网 络 分 享 相同 的 权重 和 偏差 系数 ， 第 二 ， 每 层 都 接收 输 
入 ， 并 且 产 生 输 出 。 为 了 运行 这 个 模型 ， 我 们 需要 给 两 个 时 间 送 代 都 
提供 输入 ， 如 下 所 示 : 


import numpy as np 


# Mini-batch: instance 0,instance 1,instance 2,instance 3 


XO_batch = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 9, 1]]) #t =0 


ll 
m 


X1_batch = np.array([[9, 8, 7], [0, ©, ©], [6, 5, 4], [3, 2, 1]]) #t 


with tf.Session() as sess: 
init.run() 
YO_val, Y1 val = sess.run([YO, Y1], feed_dict={X0: XO_batch, X1: X1_batch}) 
这 个 小 批 次 网 络 包 含 四 个 实例 ， 每 个 实例 有 一 个 由 两 个 输入 组 成 的 输 
入 序列 。 最 后 Y0_val 和 Y1_val 包 含 了 小 批 次 网 络 上 的 所 有 人 神经 元 和 所 
A KME DA SAT TAC ERIH E : 
>>> print(YO_val) # output at t = 0 


[[-9.2964572 0.82874775 -0.34216955 -0.75720584 0.19011548] # instance 0 


[-0.12842922 0.99981797 0.84704727 


[ 0.04731077 0.99999976 0©.99330056 


[ 0.70323634 0.99309105 0.99909431 


>>> print(Y1 val) # output at t = 1 


[[ 0.51955646 1. 0.99999022 


-0.99570125 0.38665548] 


-0.999933 


-0.99984968 -0.24616946] 


# instance 1 


0.55339795] # instance 2 


-0.85363263 0.7472108 ]] # instance 3 


# instance 0 


[-0.70553327 -0.11918639 0.48885304 0.08917919 -0.26579669] # instance 1 


[-0.32477224 0.99996376 0.99933046 -0.99711186 ©.10981458] # instance 2 


[-90.43738723 0.91517633 0.97817528 -0.91763324 ©.11047263]] # instance 3 


虽然 很 难 ， 但 是 肯定 可 以 使 用 这 个 方法 来 运行 一 个 有 100 个 时 间 和 迭代 的 
RNN， 它 产生 的 图 形 将 会 变 得 巨大 。 现 在 我 们 来 看 看 如 何 使 用 
TensorFlow 的 RNN 操 作 来 创建 一 个 相同 的 网 络 。 


TESA TB) BF AS IT 


static_rnn O 函数 通过 链 式 单元 来 创建 一 个 展开 的 RNN 网 络 。 下 面 的 
代码 创建 了 一 个 和 上 文 相同 的 RNN 网 络 : 


X0 = tf.placeholder(tf.float32, [None, n_inputs]) 


X1 = tf.placeholder(tf.float32, [None, n_inputs]) 


basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


output_seqs, states = tf.contrib.rnn.static_rnn( 
basic_cell, [X0, X1], dtype=tf.float32) 


YO, Y1 = output_seqs 


首先 ， 创 建 和 以 前 一 样 的 输入 占 位 符 。 然 后 创建 了 一 个 
BasicRNNCell， 可 以 认为 它 是 一 个 用 来 构建 展开 的 RNN 网 络 单元 副本 
的 工厂 。 然 后 调用 static_mn () 函数 ， 传 入 单元 工厂 和 输入 张 量 ， 并 
告诉 函数 输入 的 数据 类 型 (这 个 函数 用 来 创建 初始 状态 和 矩阵， 其 默认 
(RENE) 。 对 于 每 个 输入 ，static_rnn O 函数 调用 单元 工厂 的 
alo 0 画 数 来 创建 共享 权重 和 偏差 系数 的 两 个 相同 的 单元 (每 个 
单元 包含 一 个 层 由 五 个 循环 神经 元 层 组 成 的 网 络 ) ， 然 后 像 以 前 一 样 
捆绑 在 一 起 。static_rnn () 函数 返回 两 个 对 象 。 第 一 个 是 一 个 包含 了 
每 个 时 间 迭 代 的 输出 张 量 的 Python 列 。 第 二 个 是 一 个 包含 了 网 络 最 终 状 
态 的 张 量 。 当 你 使 用 基本 单元 时 ， 最 终 状态 等 于 最 后 的 输出 。 


如 果 有 50 个 时 间 送 代 ， 定 义 50 个 输入 占 位 符 和 50 个 输出 张 量 束 会 有 些 
不 方便 。 另 外 ， 在 运行 时 也 需要 逐次 传 入 这 50 个 输入 并 处 理 50 个 和 输 

出 。 让 我 们 来 简化 一 下 这 个 流程 。 下 面 的 代码 再 次 创建 了 一 个 相同 的 
RNN 网 络 ， 但 是 这 次 只 需要 输入 一 个 输入 占 位 符 张 量 [None，n_steps， 
n_inputs]， 其 中 第 一 个 维度 是 小 批 次 的 尺寸 。 然 后 它 抽 取 每 个 时 间 迭 代 
的 输入 序列 列表 。X_seqs 是 张 量 [INone，n_inputs] 的 n_steps Python 列 
表 ， 同 样 第 一 个 维度 是 小 批 次 的 尺寸 。 为 了 实现 这 个 ， 我 们 首 移 使 用 
transpose () 函数 交换 前 面 两 个 维度 ， 使 得 第 一 个 时 间 迭 代 现 在 是 第 一 
个 维度 。 然 后 使 用 unstack () 范 数 抽取 一 个 沿 着 第 一 个 维度 (BI, 一 
个 时 间 迭 代 一 个 张 量 ) 的 Python 张 量 列表 。 接 下 来 的 两 行 和 以 前 一 样 。 
最 后 ， 使 用 stack () 函数 合并 所 有 输出 张 量 为 一 个 张 量 ， 并 交换 前 两 
个 维度 来 得 到 一 个 基本 RNN 的 最 终 输 出 张 量 [None，n_steps， 
n_neurons] (再 次 ， 第 一 个 维度 是 小 批 次 的 尺寸 ) 


X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 


X_seqs = tf.unstack(tf.transpose(X, perm=[1, 0, 2])) 


basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


output_seqs, states = tf.contrib.rnn.static_rnn( 
basic_cell, X_seqs, dtype=tf.float32) 


outputs = tf.transpose(tf.stack(output_seqs), perm=[1, 0, 2]) 


现在 可 以 通过 输入 一 个 包含 所 有 小 批 次 序列 的 张 量 来 运行 网 络 : 


X_batch = np.array([ 


[[0, 1, 2], [9, 8, 7]], # instance 


© 


[[3, 4, 5], [0, ©, ©]], # instance 1 


[[6, 7, 8], [6, 5, 4]], # instance 


N 


[[9, ©, 1], [3, 2, 1]], # instance 


w 


with tf.Session() as sess: 
init.run() 


outputs_val = outputs.eval(feed_dict={X: X_batch}) 


并 得 到 一 个 所 有 实例 、 所 有 时 间 和 迭代 和 所 有 神经 元 的 outputs_val 输 出 张 


Ea, 


里 : 


>>> print(outputs_val) 
[[[-0.2964572 ©.82874775 -0.34216955 -0.75720584 0.19011548] 


[ 0.51955646 1. 0.99999022 -0.99984968 -0.24616946] ] 


[[-9.12842922 0.99981797 0.84704727 -0.99570125 0.38665548] 
[-90.70553327 -0.11918639 0.48885304 0.08917919 -0.26579669] ] 
[[ 0.04731077 0.99999976 ©.99330056 -0.999933 ©.55339795 ] 


[-0.32477224 0.99996376 0.99933046 -0.99711186 0.10981458] ] 


[[ 0.70323634 0.99309105 0.99909431 -0.85363263 0.7472108 ] 


[-90.43738723 0.91517633 0.97817528 -0.91763324 0.11047263]]] 


然而 ， 这 种 情况 下 一 个 单元 在 每 个 时 间 和 迭代 仍然 需要 构建 出 一 张 图 。 
如 果 有 50 个 时 间 迭 代 ， 图 像 看 起 来 还 是 会 很 丑 。 它 比较 类 似 于 不 使 用 
循环 来 写 程序 ( 即 ，Y0=f (0，X0) ; Y1=f (YO, X1) ; Y2=f (Y1, 
X2) ; ...; Y50=f (Y49, X50) ) 。 在 正 加 传播 期 间 ， 为 了 能 够 计算 
反问 传播 时 的 梯度 值 ， 系 统 必须 存储 所 有 的 张 量 值 ， 所 以 如 果 使 用 这 
种 大 图 像 ， 系 统 很 有 可 能 在 数据 反 回 传播 期 间 内 存 洪 出 (OOM) (È 
其 是 当 GPU 容 量 有 限时 ) ° 


万 笠 ， 还 有 更 好 的 解决 方案 : dynamic_mn () ERY ° 
通过 时 间 动 态 展开 
dynamic_mn () 画 数 使 用 while_ loop O 操作 在 单元 上 运行 适当 次 。 为 


了 避免 OOM 错 误 ， 可 以 设置 swap_memory=True 来 将 GPU 内 存 换 到 CPU 
内 存 。 方 便 的 是 ， 它 可 以 对 每 个 时 间 友 代 的 所 有 输出 使 用 一 个 单独 张 


= (shape[None, n steps, n_inputs]) ， 并 且 对 每 个 时 间 迭 代 的 所 有 输 
出 输出 一 个 单独 张 量 (shape[None, n steps, n_neurons]) |, DRAHE 
县 、 拆 分 或 者 调换 。 下 面 的 代码 使 用 dynamic_rnn () 函数 创建 了 一 个 
与 上 文 相同 的 RNN 网 络 。 它 看 起 来 比 以 前 好 很 多 ! 


X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 


basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


outputs, states = tf.nn.dynamic_rnn(basic_cell, X, dtype=tf.float32) 


W raean , while_loop O 函数 用 了 一 些 适 当 的 “魔法 ”: E 
们 在 正 辐 传 输 期 间 保存 每 个 欠 代 的 张 量 值 ， 使 得 网 络 可 以 在 反 辐 传输 
期 间 用 它们 来 计算 梯度 变化 。 


处 理 长 度 可 变 输入 序列 


到 现在 为 止 ， 我们 使 用 的 都 是 固定 长 度 的 输入 序列 (全 部 只 有 两 个 从 
代 ) 。 如 果 输 入 序列 的 长 度 是 可 变 的 将 会 怎样 呢 ? 在 这 种 情况 下 ， 必 
须 在 调用 dynamic_rnn O (或 者 static_ rn () ) 函数 时 设置 
sequence_length 参 数 。 该 参数 必须 是 一 个 指示 每 个 实例 输入 序列 长 度 的 
一 维 张 量 。 例 如 : 


seq_length = tf.placeholder(tf.int32, [None] ) 


[...] 


outputs, states = tf.nn.dynamic_rnn(basic_cell, X, dtype=tf.float32, 


sequence_length=seq_length) 


例如 ,假设 第 二 个 输入 序列 仅 包含 一 个 输入 ， 为 了 适应 输入 张 量 X， 必 
人 
人 小， 2° o 

X_batch = np.array([ 


# step © step 1 


[[0, 1, 2], [9, 8, 7]], # instance 


© 


[[3, 4, 5], [0, 9, 0]], # instance 1 (padded with a zero vector) 


[[6, 7, 8], [6, 5, 4]], # instance 


N 


[[9, ©, 1], [3, 2, 1]], # instance 


w 


1) 


seq_length_batch = np.array([2, 1, 2, 2]) 


当然 ， 还 需要 输入 占 位 符 X 和 seq_length 的 值 : 


with tf.Session() as sess: 
init.run() 
outputs_val, states_val = sess.run( 


[outputs, states], feed_dict={X: X_batch, seq_length: seq_length_batch}) 


MÆ, RNN ABER A eR SB oa Se (看 代 
码 中 第 二 个 实例 的 第 二 个 时 间 迭 代 ) : 


>>> print(outputs_val) 


[[[-9.2964572 0.82874775 -0.34216955 -0.75720584 0©.19011548] 


[ 0.51955646 1. 


[[-0.12842922 0.99981797 


[ 0. 0. 


[[ 0.04731077 0.99999976 


[-0.32477224 0.99996376 


[[ 0.70323634 0.99309105 


[-90.43738723 0.91517633 


©.99999022 -0.99984968 -0.24616946]] # final state 


©.84704727 -0.99570125 0.38665548] # final state 


0.99330056 


0.99933046 


0.99909431 


0.97817528 


-0.999933 


-0.99711186 


-0.85363263 


-0.91763324 


此 外 ， 状 态 张 量 包 含 了 每 个 单元 的 最 终 状 态 


>>> print(states_val) 


[[ 0.51955646 1. 


[-90.12842922 0.99981797 0.84704727 -0.99570125 ©. 


[-90.32477224 0.99996376 0.99933046 -0.99711186 ©. 


[-90.43738723 0.91517633 ©.97817528 -0.91763324 ©. 


©.99999022 -0.99984968 


© 


0 


0 


0 


0 


]] # zero vector 
.55339795] 
.10981458]] # final state 


.7472108 ] 


.11047263 ]]] # final state 


JANS E =s 
(除了 零 向 量 ) 
.24616946] #t =1 
38665548] #t = 0!!! 
10981458] #t = 1 
11047263]] #t = 1 


处 理 长 度 可 变 输 出 序列 


如 果 输 出 序列 的 长 度 也 是 可 变 的 将 会 怎样 ? 如 果 能 提前 知道 每 个 序列 
的 长 度 是 多 少 〈 例 如 ， 知 道 每 个 输出 序列 的 长 度 和 输入 序列 一 致 ) ， 
那么 就 可 以 使 用 前 文 所 述 的 方法 设置 sequence_length 参 数 的 值 。 不 驻 的 
是 ， 通 常 这 种 情况 不 可 能 出 现 ， 例 如 ， 被 翻译 后 的 句子 的 长 度 通常 和 
输入 句子 的 长 度 不 一 致 。 在 这 种 情况 下 ， 最 通用 的 解决 方案 是 定义 一 
种 被 称 为 序列 结束 令 牌 (EOS token) 的 特殊 输出 。EOS 之 后 的 所 有 和 输 
出 将 会 被 忽略 (我 们 将 在 本 章 的 后 面 详细 讨论 这 一 点 ) 


现在 知道 如 何 构 建 一 个 RNN 网 络 了 (或 者 更 准确 地 说 是 按时 间 展 开 的 
RNN 网 络 ) 。 但 是 ， 如 何 训练 它 呢 ? 


训练 RNN 


训练 一 个 RNN 网 络 的 关键 是 像 之 前 做 的 那样 将 其 通过 时 间 展 开 ， 然 后 
简单 地 使 用 一 个 定期 的 反 向 传播 〈 见 图 14-5) 这 种 策略 称 为 通过 时 间 反 
向 传播 (BPTT) 。 


OM ay Nay May 


< | 


bobi 


图 14-5: 通过 时 间 反 向 传播 


类 似 于 定期 的 反 向 传播 ， 首 先 沿 着 展开 网 络 的 是 一 个 正 向 传播 (图 中 
虚线 箭头 表示 ) ;然后 使 用 成 本 函数 “Yo ，Y06rw o Yoo? 估算 
输出 GER, ton Flt ma 表示 第 一 个 和 最 后 一 个 输出 时 间 迄 代 ， 不 计算 
被 忽略 的 输出 ) ， 成 本 函数 的 梯度 是 沿 着 展开 的 网 络 反 向 传播 (图 中 
的 实 线 表示 ) ; 最 后 ， 在 BPTT 期 间 使 用 梯度 所 计算 的 值 更 新 网 络 参 

数 。 注 意 ， 梯 度 通过 被 成 本 画 数 使 用 的 所 有 输出 向 后 流动 ， 而 不 是 仅 
仅 通过 最 终 输 出 (例如 ， 图 14-5 中 的 成 本 画 数 使 用 网 络 的 最 后 三 个 输出 
Yo) 、Y aq MY y 计算 ， 所 以 梯度 通过 这 三 个 输出 流动 ， 而 不 是 


a 


通过 Y o MY a) 。 此 外 ， 因 为 相同 的 参数 W 和 b 被 使 用 于 每 个 时 
间 适 代 ， 所 以 反 向 传播 可 以 做 正确 的 事情 并 总 结 所 有 时 间 迄 代 。 


WBF I op Rae 


让 我 们 来 训练 一 个 识别 MNIST 图 像 的 RNN 网 络 。 卷 积 神经 网 络 更 加 适 
合 于 图 像 分 类 〈 见 第 13 章 ) ， 这 里 只 是 想 举 一 个 熟悉 的 例子 。 我 们 将 
图 像 视 为 一 个 28 行 ， 每 行 28 像 素 的 序列 (因为 每 个 MNIST 图 像 是 28x28 
BA) 。 我 们 将 使 用 150 个 循环 神经 元 单元 ， 外 加 一 个 连接 到 最 后 一 个 
笃 元 的 全 连接 层 ， 最 后 
是 一 个 softmax 层 ( 见 图 14-6) 


图 14-6: 序列 分 类 器 


构建 阶段 非常 简单 ; 它 和 第 10 章 构建 的 MNIST 分 类 器 几乎 一 样 ， 只 是 
用 一 个 展开 的 RNN 人 代替 了 隐藏 层 。 注 意 ， 全 连接 层 是 连接 在 包含 RNN 
最 终 状 态 的 状态 张 量 上 ( 即 第 28 个 输出 上 ) 。 另 外 需要 注意 的 是 ，y 是 
一 个 目标 类 占 位 符 。 


from tensorflow.contrib.layers import fully_connected 


n_steps = 28 


n_inputs = 28 


n_neurons = 150 


n_outputs = 10 


learning_rate = 0.001 


x 
ll 


tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 


tf.placeholder(tf.int32, [None]) 


< 
ll 


basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


outputs, states = tf.nn.dynamic_rnn(basic_cell, X, dtype=tf.float32) 


logits = fully_connected(states, n_outputs, activation_fn=None) 


xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits( 


labels=y, logits=logits) 


loss = tf.reduce_mean(xentropy) 


optimizer = tf.train.AdamOptimizer (learning _rate=learning_rate) 
training_op = optimizer .minimize(loss) 

correct = tf.nn.in_top_k(logits, y, 1) 

accuracy = tf.reduce_mean(tf.cast(correct, tf.float32)) 


init = tf.global_variables_initializer() 


现在 ， 加 载 MNIST 数 据 ， 并 按照 网 络 的 要 求 改 造 测试 数 据 为 
[batch_size, n_steps, n_inputs] ° 随后 我 们 会 改造 训练 数据 。 


from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read_data_sets("/tmp/data/") 
X_test = mnist.test.images.reshape((-1, n_steps, n_inputs)) 


y_test = mnist.test.labels 


现在 开始 训练 RNN 网 络 。 执 行 阶段 和 第 10 章 的 MNIST 分 类 器 也 几乎 完 
全 相同 ， 只 是 在 输入 到 网 络 之 前 会 改造 每 个 训练 批 次 的 输入 数据 。 


n_epochs = 100 


batch_size = 150 


with tf.Session() as sess: 


init.run() 
for epoch in range(n_epochs): 
for iteration in range(mnist.train.num_examples // batch_size): 
X_batch, y_batch = mnist.train.next_batch(batch_size) 
X_batch = X_batch.reshape((-1, n_steps, n_inputs)) 
sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 
acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch}) 
acc_test = accuracy.eval(feed_dict={X: X_test, y: y_test}) 


print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test) 


输出 类 似 于 如 下 代码 : 


© Train accuracy: 0.713333 Test accuracy: 0.7299 


1 Train accuracy: 0.766667 Test accuracy: 0.7977 


98 Train accuracy: 0.986667 Test accuracy: 0.9777 


99 Train accuracy: 0.986667 Test accuracy: 0.9809 


我 们 得 到 了 98% 的 准确 率 ! 此 外 ， 可 以 通过 一 些 措 施 得 到 更 好 的 结 采 ， 
比如 : 通过 超 参数 调整 、 使 用 He 初始 化 来 初始 化 RNN 权 重 、 训 练 更 长 
时 间 、 增 加 一 些 正则 化 (如 ， 退 出 ) 等 。 


~I 可 以 通过 将 其 构造 代码 包含 在 可 变 范 围 内 来 为 RNN 网 络 指定 初始 化 
程序 (为 了 使 用 He 初始 化 ， 使 用 了 variable_scope ("mn", 


initializer=variance_scaling_ini tializer () ) ) œ 

训练 预测 时 间 序 列 

现在 来 看 看 如 何 处 理 时 间 序 列 ， 如 股票 价格 、 空 气温 度 、 脑 波 模式 
等 。 在 本 节 中 ， 我 们 将 训练 一 个 RNN 来 预测 生成 时 间 序 列 里 的 下 一 个 


值 。 每 个 训练 实例 是 从 时 间 序列 中 随机 选择 的 20 个 连续 值 ， 除 了 时 间 
迭代 后 移 一 个 ， 目 标 序 列 与 输入 序列 相同 ( 见 图 14-7) 。 


一 个 时 间 序列 (生成 的 ) À 一 个 训练 实例 


0 5 10 15 20 25 


图 14-7: 时 间 序 列 E) ， 从 时 间 序 列 而 来 的 训练 实例 E) 


首先 ,创建 一 个 RNN。 它 包含 100 个 循环 神经 元 ， 将 其 展开 为 20 个 时 间 
迭代 ， 因 此 每 个 训练 实例 的 输入 长 度 为 20。 每 个 输入 只 包含 一 个 特征 

(当时 的 值 ) 。 目 标 序 列 也 有 20 个 输入 ， 每 个 输入 是 一 个 单独 值 。 代 
码 几乎 与 前 面 的 相同 : 


n_steps = 20 
n_inputs = 1 
n_neurons = 100 


n_outputs = 1 


X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 
y = tf.placeholder(tf.float32, [None, n_steps, n_outputs]) 
cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu) 


outputs, states = tf.nn.dynamic_rnn(cell, X, dtype=tf.float32) 


Mt 输入 的 特征 不 止 一 个 。 例 如 ， 如 有 果 想 要 预测 股票 价 
格 ， 将 会 在 每 个 时 间 从 代 获取 多 个 其 他 输入 特征 ， 如 苋 争 股票 的 价 
格 、 分 析 师 的 评价 ， 或 者 其 他 帮助 系统 预测 的 特征 。 


现在 在 每 个 时 间 送 代 ， 有 一 个 大 小 为 100 的 输出 向 量 ， 但 是 实际 上 我 们 
只 需要 一 个 单独 的 输出 值 。 最 简单 的 解决 方案 是 将 单元 格 包装 在 
OutputProjectionWrapper 中 。 包 装 单 元 像 普 通 的 单元 格 一 样 ， 其 方法 调 
用 下 面 的 单元 格 ， 但 是 也 添加 了 一 些 功能 。OutputProjectionWrapper 在 
每 个 输出 的 顶部 (但 是 不 影响 单元 的 状态 ) 添加 了 一 个 线性 神经 元 的 
全 连接 层 。 所 有 的 这 些 全 连接 层 分 享 相 同 的 (可 训练 的 ) 权重 和 偏差 
系数 。 得 到 的 RNN 如 图 14-8 所 示 。 


包装 单元 相当 简单 。 让 我 们 调整 上 述 代码 ， 包 装 一 个 BasicRNNCell 为 
Output-Projection Wrapper: 


cell = tf.contrib.rnn.OutputProjectionwrapper ( 


tf.contrib.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu),outp 


ut_size=n_outputs) 


Xie) Aw 


BasicRNNCell 


OutputConnectionWrapper 


图 14-8: 使 用 了 输出 预测 的 RNN 单 元 


到 目前 为 止 ， 一切 顺利 。 现 在 需要 定义 一 个 成 本 函数 。 我 们 将 使 用 以 
前 回归 任务 中 用 过 的 均 方 误差 (MSE) 。 接 下 来 ， 与 以 往 一 样 将 创建 
Adam 优 化 右 、 训 练 操作 、 初 始 化 变量 : 


learning_rate = 0.001 


loss = tf.reduce_mean(tf.square(outputs - y)) 


optimizer = tf.train.AdamOptimizer (learning _rate=learning_rate) 


training_op = optimizer .minimize(loss) 


init = tf.global_variables_initializer() 


现在 是 执行 阶段 : 


n_iterations = 10000 


batch_size = 50 


with tf.Session() as sess: 


init.run() 
for iteration in range(n_iterations): 
X_batch, y_batch = [...] # fetch the next training batch 
sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) 
if iteration % 100 == 
mse = loss.eval(feed_dict={X: X_batch, y: y_batch}) 


print(iteration, "\tMSE:", mse) 


程序 输出 类 似 下 面 的 代码 : 


0 MSE: 379.586 
100 MSE: 14.58426 
200 MSE: 7.14066 
300 MSE: 3.98528 


400 MSE: 2.00254 


一 旦 模型 被 创建 ， 就 可 以 做 预测 : 


X new = [...] # New sequences 


y_pred = sess.run(outputs, feed_dict={X: X_new}) 


图 14-9 输 出 了 前 文 实例 (在 图 14-7 中 ) EA T 1000K IFAS AIT 
测序 列 。 


测试 模型 


06 实例 


20 25 10 135 140 145 
时 间 


图 14-9: 预测 时 间 序 列 


尽管 使 用 OutputProjectionWrapper 是 将 每 个 时 间 迭 代 RNN 的 输出 序列 维 
度 降 低 到 一 个 值 的 最 简单 方法 ， 但 是 它 的 效率 不 是 最 高 的 。 这 里 有 一 
个 更 加 有 歼 的 技巧 : 可 以 将 RNN 的 输出 从 [batch_size，n_steps， 
n_neurons] 改 造 为 [batch_sizex*n_steps，n_neurons]， 然 后 应 用 适当 输出 
尺寸 (在 我 们 的 例子 中 ， 值 为 1) 的 单独 全 连接 层 ， 这 将 导致 输出 张 量 
为 [batch_size*n_steps，n_outputs]， 然 后 改造 这 个 张 量 为 [batch_size， 
n_steps, n_outputs] ° 这 些 操 作 如 图 14-10 所 示 。 


为 了 实现 这 个 方法 ， 上 首先 回 深 到 一 个 没有 OutputProjectionWrapper 的 基 
本 单元 : 
cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons, activation=tf.nn.relu) 


rnn_outputs, states = tf.nn.dynamic_rnn(cell, X, dtype=tf.float32) 


然后 使 用 reshape () 操作 县 加 所 有 输出 ， 应 用 线性 全 连接 层 〈 这 仅仅 
F a 不 使 用 任何 的 激活 函数 ) ， 最 后 再 使 用 reshape () 拆 分 
Hl 


ji 出。 
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x n steps 
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图 14-10: 县 加 所 有 输出 ， 应 用 预测 ， 人 然后 拆 分 结 采 


stacked_rnn_outputs = tf.reshape(rnn_outputs, [-1, n_neurons]) 
stacked_outputs = fully_connected(stacked_rnn_outputs, n_outputs, 
activation_fn=None) 

outputs = tf.reshape(stacked_outputs, [-1, n_steps, n_outputs]) 
剩余 ee oe a 个 方法 可 以 有 效 提 局 速度 因为 整个 网 
络 只 有 一 个 全 连接 层 ， 而 不 是 每 个 时 间 泛 代 一 个 

创造 性 的 RNN 

现在 已 经 有 一 个 可 以 预测 未 来 的 模型 ， 像 本 对 开始 描述 的 那样 ， 可 以 
使 用 它 来 产生 一 些 创造 性 的 序列 。 我 们 需要 做 的 事情 是 提供 Oe 
n_stepsf (例如 ， SAS) 的 种 子 序列 ， 使 用 模型 预测 下 
值 ， 将 该 预测 值 附 加 到 序列 ，2 4 模 开 答 入 下 一 个 的 5steps 信 来 预测 下 


Ser 等 等 。 该 过 程 产生 了 一 个 和 原始 序列 有 相似 性 的 新 序列 ( 见 
14-11) 。 


sequence = [0.] * n_steps 


for iteration in range(300): 


X_batch = np.array(sequence[-n_steps:]).reshape(1, n_steps, 1) 


y_pred = sess.run(outputs, feed_dict={X: X_batch}) 


sequence.append(y_pred[0, -1, 0]) 


5 10 15 20 25 30 


时 间 时 间 


图 14-11: 创造 性 序列 ， 使 用 零 值 作为 种 子 序列 (A) 或 者 使 用 一 个 实 
例 作 为 种 子 序列 A) 


现在 可 以 尝试 着 将 John Lennon 的 所 有 专辑 输入 RNN 网 络 ， 看 看 它 能 不 
能 创造 出 下 一 个 <Imagine”。 但 是 ， 可 能 需要 一 个 具有 更 多 神经 元 和 更 
深层 次 的 更 强大 的 RNN 网 络 。 

深层 RNN 

堆 释 多 层 单 元 格 的 做 法 很 常见 ， 图 14-12 给 出 了 一 个 深层 RNN ° 


>, 


14-12: 深层 RNN (Ze) ， 按 时 间 展 开 CA) 
为 了 使 用 TensorFlow 实 现 一 个 深层 RNN， 可 以 创建 几 个 单元 ， 然 后 将 它 
们 堆肥 为 一 个 MultiRNNCell。 下 面 代 码 中 堆 琶 了 3 个 相同 的 单元 ( 当 
然 ， 你 可 以 使 用 具有 不 同 数量 神经 元 的 各 种 单元 ) 。 


n_layers = 3 


basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons ) 
multi_layer_cell = tf.contrib.rnn.MultiRNNCell([basic_cell] * n_layers) 


outputs, states = tf.nn.dynamic_rnn(multi_layer_cell, X, dtype=tf.float32) 


这 就 是 所 有 需要 做 的 事情 ! 每 个 状态 变量 是 一 个 每 层 包含 一 个 张 量 的 
元 组 ， 每 个 元 组 代表 该 层 单元 (具有 [batch_size，n_neurons]) 的 最 终 
状态 。 创建 MuliRNNCell 时 ， 如 果 设 置 state_is_tuple=False， 则 状态 是 
一 个 包含 每 层 状 态 并 沿 痢 列 方向 (样式 为 [batch_size， 
n_layers*n_neurons]) 连接 的 单个 张 量 。 注 意 ， 在 TensorFlow 0.11.0 之 
前 ， 默 认 行为 就 是 这 种 。 

在 多 个 GPU 中 分 配 一 个 深层 RNN 

第 12 章 指出 ， 可 以 通过 将 每 个 层 固定 在 不 同 的 GPU 上 来 在 多 个 GPU 间 


有 效 分 配 深层 RNN 〈 见 图 12-16) 。 但 是 ， 如 采 试 图 在 不 同 的 device 
O 块 上 创建 每 个 单元 格 ， 它 将 无 法 正常 工作 : 


with tf.device("/gpu:0"): # BAD! This is ignored. 


layer1 = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


with tf.device("/gpu:1"): # BAD! Ignored again. 


layer2 = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


失败 的 原因 是 ，BasicRNNCell 十 一 个 单元 格 工厂 ， 而 不 是 单元 格 本 号 
(如 前 所 述 ) ;在 创建 工厂 的 时 候 是 没有 任何 单元 格 被 创建 的 ， 同 样 
也 没有 创建 变量 。 


设备 块 被 简单 忽略 。 单 元 格 实际 在 随后 被 创建 。 当 调用 dynamic_rnn 

O 方法 时 ， 它 调用 了 MultiRNNCell，MultiRNNCell 调 用 实际 创建 单 
元 格 (包括 它 的 变量 ) 的 每 个 单独 的 BasicRNNCell。 不 幸 的 是 ， 没 有 
提供 任何 类 来 控制 创建 变量 的 设备 。 如 果 试 图 在 某 个 设备 块 上 调用 
dynamic_rmn () ， 那 么 所 有 的 RNN 都 会 固定 在 这 个 单独 设备 上 。 这 样 
就 无 法 继续 了 吗 ? 幸好 不 是 这 样 ! 解决 该 问题 的 诀窍 是 创建 自己 的 单 
元 格 包装 器 : 


import tensorflow as tf 


class DeviceCellWrapper(tf.contrib.rnn.RNNCell): 


def _ init__(self, device, cell): 


self._cell = cell 


self._device = device 


@property 


def state_size(self): 


return self._cell.state_size 


@property 


def output_size(self): 


return self._cell.output_size 


def _ call (self, inputs, state, scope=None): 


with tf.device(self._ device): 


return self._cell(inputs, state, scope) 


除了 将 _call O 方法 包装 在 一 个 设备 块 山 之 外 ， 这 个 包装 器 只 是 简 
单 地 代替 每 个 方法 调用 男 一 个 单元 格 。 现 在 ， 你 可 以 将 每 一 层 分 发 给 
不 同 的 GPU 了 。 Y 
devices = ["/gpu:0", "/gpu:1", "/gpu:2"] 
cells = [DeviceCellWrapper (dev, tf.contrib.rnn.BasicRNNCell(num_ 
units=n_neurons)) for dev in devices] 
multi_layer_cell = tf.contrib.rnn.MultiRNNCell(cells) 


outputs, states = tf.nn.dynamic_rnn(multi_layer_cell, X, dtype=tf.float32) 


Be 不 要 设置 state_is_tuple=False， 否 则 MultiRNNCell 会 将 所 有 单元 格 
连接 到 一 个 GPU 的 一 个 张 量 上 。 


应 用 丢弃 机 制 


如 果 构 建 一 个 特别 深 的 RNN， 训 练 集 就 很 可 能 出 现 过 度 拟 合 的 现象 。 
为 了 阻止 过 度 拟 合 ， 一 个 比较 常用 的 方法 是 应 用 丢弃 机 制 《如 第 11 章 
介绍 的 ) 。 可 以 与 往 党 一样， 简单 地 在 RNN 之 前 或 者 之 后 添加 一 个 丢 
弃 层 ， 但 是 如 果 还 想 在 RNN 层 之 间 应 用 丢弃 机 制 ， 则 需要 使 用 一 个 
DropoutWrapper。 以 下 代码 在 RNN 的 每 个 输入 层 之 间 应 用 丢弃 机 制 ， 
丢弃 每 层 大 概 50% 的 输入 : 


keep_prob = 0.5 


cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


cell_drop = tf.contrib.rnn.DropoutWrapper(cell, input_keep_prob=keep_prob) 


multi_layer_cell = tf.contrib.rnn.MultiRNNCell([cell_drop] * n_layers) 


rnn_outputs, states = tf.nn.dynamic_rnn(multi_layer_cell, X, dtype=tf.float32) 


注意 ， 通 过 设置 put_keep_prob 的 方法 同样 可 以 对 输出 使 用 丢弃 机 制 。 


这 个 代码 的 主要 问题 是 ， 它 不 仅 在 训练 期 间 使 用 丢弃 机 制 ， 还 在 测试 
期 间 也 使 用 了 ， 这 并 不 是 我 们 想 要 的 结果 WE, EANA R MZE 
训练 期 间 使 用 ) 。 不 季 的 是 ，DropoutWrapper 不 支持 is_training 占 位 
人 符 ， 所 以 必须 写 一 个 目 己 的 丢弃 包 效 类 ， 或 者 对 训练 和 测试 使 用 两 个 
图 。 第 二 种 选择 如 下 所 示 : 


import sys 


is_training = (sys.argv[-1] == "train") 


X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 


y = tf.placeholder(tf.float32, [None, n_steps, n_outputs]) 


cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) 


if is_training: 


cell = tf.contrib.rnn.DropoutWrapper(cell, input_keep_prob=keep_prob) 


multi_layer_cell = tf.contrib.rnn.MultiRNNCell([cell] * n_layers) 


rnn_outputs, states = tf.nn.dynamic_rnn(multi_layer_cell, X, dtype=tf.float32) 


[...] # build the rest of the graph 


init = tf.global_variables_initializer() 


saver = tf.train.Saver() 


with tf.Session() as sess: 


if is_training: 


init.run() 


for iteration in range(n_iterations): 


[...] # train the model 


save_path = saver.save(sess, "/tmp/my_model.ckpt") 


else: 


saver.restore(sess, "/tmp/my_model.ckpt") 


[...] # use the model 


有 了 上 面 的 方法 ， 应 该 可 以 训练 各 种 RNN 网 络 了 ! ASAE, BOAR 
训练 一 个 长 序列 的 RNN， 事 情 会 变 得 有 点 困难 。 我 们 来 看 看 为 什么 会 
这 样 ， 以 及 可 以 做 些 什 么 ? 


ZB SAT IACI A ES 


AyD WWBR—MRFPSIBSRNN, KVARTER, te EIT 
的 RNN 成 为 一 个 非 第 深 的 网 络 。 与 其 他 深层 神经 网 络 一 样 ， 它 可 能 遇 
到 梯度 消失 /爆炸 问题 (如 第 11 章 讨论 的 ， 并 且 无 限 训 练 下 去 。 我 们 
之 前 讨论 过 的 用 于 绥 解 此 问题 的 方法 同样 可 以 用 于 展开 的 深层 RNN: 

良好 的 初始 化 参数 、 非 饱和 激活 方法 (如 ReLU) 、 批 次 归 一 化 、 梯 度 
竞 切 、 更 快 的 优化 器 等 。 然 而 ， 如 果 RNN 需 要 处 理 中 等 长 度 的 序列 ， 

训练 仍然 会 非常 慢 。 


解决 该 问题 的 最 简单 和 最 普遍 的 方法 是 ， 训 练 期 间 只 在 有 限 的 时 间 达 
代 上 展开 RNN 网 络 。 这 种 方法 被 称 为 通过 时 间 截 断 反 向 传 播 (truncated 
backpropagation through time) 。 在 TensorFlow 中 可 以 通过 简单 的 截断 输 


入 序列 实现 该 方法 。 例 如 ， 在 时 间 序 列 预 测 问题 中 ， 在 训练 期 间 简 单 
地 减少 n_steps。 当 然 ， 这样 存 在 的 问题 古 模 型 无 法 学 习 长 期 模式 。 
个 解决 方法 是 保证 这 些 缩短 了 的 训练 中 同时 包含 新 数据 和 旧 数 据 ， 这 
样 模型 就 可 以 同时 学 习 这 两 种 数据 (例如 ， 该 序列 中 可 以 包含 过 去 五 
个 月 的 每 月 数据 、 过 去 五 周 的 每 周 数据 ， 以 及 过 去 五 天 的 每 日 数 

据 ) 。 但 是 这 个 方案 存在 缺陷 ， 如 采 去 年 的 细 粒 度 的 数据 确实 有 用 
We? 如 条 有 一 个 很 小 但 是 即使 几 年 后 也 必须 考虑 进去 的 事件 呢 (例如 


选举 的 结果 ) ? 


除了 训练 时 间 长 之 外 ， 长 期 运行 的 RNN 所 面临 的 第 二 个 问题 是 第 一 个 
输入 的 记忆 逐渐 衰退 。 实 际 上 ， 由 于 数据 在 通过 RNN 网 络 时 所 经 历 的 
转换 ， 使 得 每 个 时 间 闪 代 都 会 丢失 一 些 信 息 。 过 一 段 时 间 后 ，RNN 的 
状态 中 已 经 失去 了 第 一 个 输入 的 雏 迹 。 这 可 能 会 干扰 训练 。 例 如 ， 假 
设 分 析 一 个 很 长 的 影评 ， 它 以 “我 喜欢 这 部 电影 ?开始 ， 但 站 之 后 的 评 
论 列 出 了 很 多 可 以 使 电影 更 好 的 建议 。 如 果 RNN 和 技 失 了 开始 的 几 个 单 
词 ， 束 会 完全 误解 这 个 影评 >。 为 了 解决 这 个 问题 ,引入 了 很 多 类 型 的 
长 期 记忆 单元 。 它 们 已 经 被 证 明 非 常 成功， 所 以 那些 基本 的 单元 已 经 
不 在 使 用 了 。 现 在 我 们 先 来 看 看 使 用 最 广 沁 的 长 期 记忆 单元 LSTM 单 
JL O 


[1]. 这 里 使 用 装饰 (decorator) 设计 模式 。 
LSTM 早 元 


长 期 记忆 单元 (LSTM) 于 1997 (https://goo.gl/j39AGv_) 出 年 被 Sepp 

Hochreiter 和 Ju? rgen Schmidhuber 提 出 ， 然 后 被 Alex Graves、Haim Sak 
(https://goo.g/6BHh81 ) {和 和 Wojciech Zaremba ( 

https://g00.gV/SZ9kzB ) lt 结 等 人 了 逐步 改进 。 如 果 将 LSTM 单 元 视 为 黑 

盒 ， 那 么 除了 性 能 比较 好 之 外 ， 它 用 起 来 就 和 一 个 基本 单元 一 样 。 训 

练 将 更 快 收敛 ， 并 且 能 检测 数据 中 的 长 期 依赖 。 在 TensorFlow 中 ， 可 以 

很 容易 地 使 用 BasicLSTM 来 代替 BasicRNNCell: 


lstm cell = tf.contrib.rnn.BasicLSTMCell(num_units=n_neurons) 


LSTM 单 元 管理 着 两 个 向 量 ， 因 为 性 能 的 原因 ， 它 们 默认 是 保持 分 开 
的 。 可 以 通过 创建 时 设置 state_is_tuple=False 来 改变 默认 属性 。 


el 一 个 基本 的 LSTM 单 元 的 结构 如 图 14-13 
不 o 
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14-13: LSTM 单 元 


如 果 不 看 框 内 的 内 容 ，LSTM 单 元 看 起 来 就 像 一 个 常规 的 单元 ， 除 了 其 
状态 分 为 两 个 向 量 ， hq Ale (Ecel) 。 你 可 以 认为 h () 是 
短期 状态 ，c o EKIRA” 


现在 ， 计 我 们 来 打开 盒子 ! 其 夭 键 点 想 是 ， 网 络 可 以 学 习 在 长 期 状态 
下 什么 要 存储 ， 什 么 要 丢弃 ， 以 及 从 什么 中 读 取 。 随 着 长 期 状态 c |. 
1) 从 左 到 右 贯 罕 网 络 ， 可 以 看 见 它 首 先 经 过 一 个 起 记 门 限 ， 丢 弃 一 些 


记忆 ， 然 后 通过 一 些 额外 操作 (通过 输入 门限 选择 增加 记忆 ) 增加 一 
些 新 记忆 。c m 的 输出 被 不 加 任何 操作 地 直接 输出 。 所 以 ， 在 每 个 时 
间 和 迭代， 一 些 记忆 被 丢 痉 ， 一 些 记 忆 被 增加 。 此 外 ， 经 过 额外 操作 ， 
长 期 状态 被 复制 并 传 入 tanh 函 数 ， 然 后 其 结 末 被 输出 门限 过 滤 。 于 走 束 
产生 了 短期 状态 h (， 〈 它 等 于 时 间 和 迭代 y 的 单元 格 输 出 ) 。 现 
在 ， 我 们 来 看 看 新 记忆 从 何 而 来 ， 如 何 工作 。 


首先 ， 当 前 输入 向 量 x 4， 和 前 一 个 短期 状态 h (4) 被 输入 到 四 个 不 同 
的 全 连接 层 。 它 们 都 有 不 同 的 目的 : 


. 主 层 是 输出 为 g o 的 层 。 它 的 基本 作用 是 分 析 当 前 输入 x 4， 和 前 一 
个 短期 状态 h (4.1) 。 基 本 单元 中 就 只 有 这 一 个 层 ， 它 直接 输出 y o 和 
h (，。 相 比 之 下 ，LSTM 单 元 没有 直接 输出 ， 而 是 将 部 分 输出 存储 在 
长 期 状态 中 。 


其 他 三 个 层 是 门限 控制 器 。 因 为 使 用 了 逻辑 激活 函数 ， 它 们 的 输出 范 
围 在 0 到 1 之 间 。 如 独 14-13 所 示 ， 写 们 的 输出 被 输入 到 元 聂 智 能 乘法 操 
作 中 。 因 此 如 采 输 出 征 0， 那 么 门限 关闭 ， 如 采 输 出 是 1， 那 么 门限 打 


F ° FANE: 
WEIR (由 f 控制 ) 控制 着 哪些 长 期 状态 应 该 被 丢弃 。 


-输入 门限 (由 i o T) 控制 着 g o 的 哪些 部 分 会 被 加 入 到 长 期 状 
态 (这 就 是 我 们 说 只 是 “部 分 存储 ”的 原因 ) 。 

最 后 ， 输 出 门限 (Ho o 控制 ) 控制 着 哪些 长 期 状态 应 该 在 这 个 时 间 
迭代 被 读 取 和 输出 (h gy My y) 。 

简 而 言 之 ，LSTM 单 元 可 以 学 习 识 别 重要 输入 (这 是 输入 门限 的 职 

ot) ， 将 其 存储 到 长 期 状态 中 ， 学 习 需 要 时 保存 它 (这 是 起 记 门限 的 
只 责 ) ， 以 及 学 习 需 要 的 时 候 提 取 它 。 这 就 解释 了 它 为 什么 能 够 成 功 
捕 所 到 时 间 序列 中 的 长 期 模式 、 长 文字 、 录 音 等 。 

公 陈 14-3 总 结 了 如 何 计算 单个 实例 中 单元 在 每 个 时 间 闪 代 的 长 期 状态 、 
短期 状态 ， 以 及 输出 整个 小 批 次 的 方程 和 此 也 非常 相似 ) 。 


公式 14-3: LSTM 计 算 


= o(W, +x, + W,*h,, +b) 
r(Wy， Xa + Wi, hy.) + by) 
o(W. +x, +W, hoa +b,) 
fy E AW + Why) +b.) 
Fy) QC) + k % gly 
hy, = 00 @ tanh(e,, ) 


，W tf，W wo。，W wa 是 每 一 层 连接 到 输入 向 量 x (， 的 权重 矩阵 。 


"Whi，W hf，W ho ，W hg 是 每 一 层 连 接 到 前 一 个 短期 状态 h (eu 的 权 
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Dias Mes b 。 ，bs 是 每 一 层 的 偏差 系数 。 注 意 ，TensorFlow 将 b | 初始 化 
为 全 是 1s 的 向 量 ， 而 不 是 0s。 这 会 阻止 在 训练 开始 时 丢弃 所 有 东西 。 
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期 状态 h (1，。 通 过 让 它们 接触 到 长 期 状态 来 获取 更 多 的 内 容 或 许 古 
个 不 错 的 主意 。Felix Gers 和 Jirgen Schmidhuber 于 2000 年 ( 


https:// Jgoo. gych8xz3 ) 全 提出 了 该 想法 。 他 们 提出 了 具有 额外 连接 的 
LSTM 变 体 ， 被 称 为 颖 视 孔 连接 (peephole connections) : 前 一 个 长 期 
状态 G (1) WA 当前 的 长 期 状态 c m 


作为 输入 传 入 输出 门限 控制 妖 


在 TensorFlow 中 实现 舌 视 和 孔 连 接 ， 只 需要 使 用 LSTMCell 代 替 
BasicLSTMCell, 3:18 Buse peepholes= True: 


lstm cell = tf.contrib.rnn.LSTMCell(num_units=n_neurons, use_peepholes=True) 


还 有 很 多 LSTM 单 元 的 其 他 变形 。 其 中 最 闭 名 的 束 是 即将 要 讲 的 GRU 单 


a 


[1] “Long Short-Term Memory” , S.Hochreiter 和 J.Schmidhuber 
(1997) 。 


[2] “Long Short-Term Memory Recurrent Neural Network Architectures for 
Large Scale Acoustic Modeling”, H.Sak% A (2014) ° 


[3] “Recurrent Neural Network Regularization” , W.Zaremba = 人 
(2015) ° 


[4] “Recurrent Nets that Time and Count” , F.Gers 和 J.Schmidhuber 
(2000) 。 


GRU 单 元 


2014 年 Kyunghyun Cho 等 人 在 论文 (https://g00.e/ZnAEOZ ) [寺中 提出 
了 门限 循环 单元 (GRU) ”( 见 图 14-14); 。 他 们 也 在 该 文章 中 介绍 了 前 
面 提 到 的 编码 絮 - 解 码 絮 网络 。 


GRU 单 元 是 LSTM 的 简化 版 本 ， 它 的 表现 和 LSTM 差 不 多 [21 (这 说 明了 
其 日 益 普 及 的 原因 ) 。 其 主要 简化 了 : 


两 个 状态 回 量 合并 为 一 个 同 量 h 4 ° 


(t-1) 


图 14-14: GRU 单 元 
一 个 门限 控制 器 同时 控制 起 记 门 限 和 输入 门限 。 如 果 门 限 控制 器 的 输 


出 是 1， 那 么 输入 门限 打开 而 起 记 门 限 关 闭 。 如 来 输出 是 0， 则 正好 相 
反 。 换 人 句 话说 ， 无 论 何 时 需要 存储 一 个 记忆 ， 它 将 被 存在 的 位 置 将 首 
先 被 擦 除 。 这 实际 上 是 LSTM 单 元 的 一 个 常见 变 体 。 

:没有 输出 门限 。 在 每 个 时 间 送 代 ， 输 出 向 量 的 全 部 状态 被 直接 输出 。 
a 一 个 新 的 门限 控制 占 来 控制 前 一 个 状态 的 哪个 部 分 将 显 
TS 


公 陈 14-4 总 结 了 单个 实例 的 每 个 时 间 和 迭代 中 怎么 计算 单元 的 状态 。 


公式 14-4: GRU 计 算 


= o(W, 'X t W, ' ho) 


(1) 
7 7 
ly = o(W, Kay t W, ' he) 
7 7 
So) = tanh( W, Xi, t Wy ' (Eep Oh )) 


0 
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h = (1 - Li ) W tanh( W, Hey t Ly) & g ) 


在 TensorFlow 中 创建 一 个 GRU 单 元 极其 简单 : 


Z 


gru_cell = tf.contrib.rnn.GRUCell(num_units=n_neurons) 


LSTM 或 GRU 是 近 些 年 RNN 获 得 成 功 的 一 个 主要 原因 ， 尤 其 是 在 目 然 
语言 处 理 (NLP) 中 的 应 用 。 


[1|_“Learning Phrase Representations using RNN Encoder-Decoder for 
Statistical Machine Translation”, K.Cho A (2014) ° 


[2|_Klaus Greff 等 人 发 表 于 2015 年 的 论文 “LSTM: A Search Space 
Odyssey” (https://goo.gV/hZB4KW) ， 似 乎 显示 了 所 有 LSTM 变 体 的 性 
能 大 体 相同 。 


目 然 语言 处 理 


大 多 数 自然 语言 处 理应 用 都 是 〈 至 少 部 分 ) 基于 RNN 的 ， 诸 如 机 器 翻 
译 、 目 动 总 结 、 语 法 分 析 、 观 点 分 析 等。 在 本 章 的 最 后 部 分 ， 我 们 将 
要 看 看 机 器 翻译 模型 是 如 何 工 作 的 。TensorFlow 的 Word2Vec ( 
https:/goo.gl/edArdi ) 和 Seq2Seq (https://goo.s/L82evS ) 教程 详细 地 
介绍 了 这 部 分 内 容 ， 你 应 该 认真 学 习 一 下 。 


FETA] ERA 


在 开始 之 前 ， 我 们 需要 选择 一 个 单词 代表 。 一 个 选择 是 使 用 一 个 one- 
hot 向 量 来 代表 每 个 单词 。 假 设 单词 表 有 50000 个 单词 ， 那 么 第 n 个 单词 
要 使 用 一 个 50000 向 量 代 蔡 ， 除 了 第 n 位 是 1 外 ， 其 他 位 都 是 0。 然 而 ， 

这 么 大 的 词汇 量 使 用 这 种 稀疏 表示 方式 不 是 很 高 效 。 理 想 情况 下 ， 我 
们 希望 相似 的 单词 使 用 相似 的 表示 ， 这 样 模型 就 可 以 很 容易 地 推 此 即 
彼 ， 将 学 习 到 的 单词 概括 为 所 有 相似 的 单词 。 例 如 ， 如 果 告 知 模 型 “I 
drink milk” 是 一 个 合法 的 句子 ， 并 且 知 道 “milk* 和 “water” 比 较 相 似 ， 但 
是 和 “shoes” 莽 得 很 远 ， 那 么 它 束 会 知道 <I drink water”* 应 该 是 一 个 合法 
的 句子 ， 而 “I drink shoes” 不 是 合法 的 。 但 是 怎样 才能 得 到 一 个 如 此 有 
意义 的 表示 方式 呢 ? 


最 兽 见 的 方案 是 ， 将 词汇 表 中 的 每 个 单词 用 小 旦 密集 的 向 量 代 表 A 
如 150 维 ) ， 此 方法 称 被 为 嵌入 。 然 后 只 需要 让 神经 网 络 在 训练 期 间 对 
每 个 单词 学 习 一 个 好 的 甬 入 即 可 。 在 训练 刚 开 始 的 时 候 ， 舱 入 十 简 单 
的 随机 选择 ， 但 是 随 春 训练 的 进行 ， 反 回 传 播 会 目 动 移动 散人 入 ， 以 大 
助 神经 网 络 执 行 其 任务 。 这 束 意 味 着 ， 相 似 的 单词 会 逐渐 地 集中 在 彼 
此 之 间 ， 甚 至 最 终 会 以 最 有 意义 的 方式 组 织 起 来 。 例 如 ， 艇 入 最 终 可 
能 会 沿 看 表示 性 别 、 单 数 /复数 、 形 容 词 /名 词 等 各 种 轴 放 置 。 结 来 确实 
SRA o H 


在 TensorFlow 中 ， 首 先 需 要 为 词汇 表 中 的 每 个 单词 创建 一 个 表示 嵌入 的 
变量 (随机 初始 化 ) : 


vocabulary_size = 50000 
embedding_size = 150 
embeddings = tf.Variable( 


tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0)) 


现在 ,假设 要 将 句子 “I drink milk” 传 入 网 络 。 首 先 ， 应 该 将 句子 分 解 为 
一 系列 已 知 的 单词 。 例 如 ， 可 以 删除 不 必要 的 字符 ， 用 预定 义 的 令 牌 
替换 未 知 的 单词 ， 如 用 “[NUM]” 警 换 数 字 ， 用 “[URL]” 蔡 换 URL 等 。 一 


且 有 一 个 已 知 的 单词 列表 ， 可 以 查找 每 个 单词 在 字典 中 的 数字 标识 符 
(从 0 到 49999) ， 例 如 [72，3335，288]。 此 时 ， 使 用 占 位 符 将 这 些 标 
识 符 提供 给 TensorFlow， 并 且 应 用 embedding_lookup () 函数 来 得 到 相 
MAJIKA: 


train_inputs = tf.placeholder(tf.int32, shape=[None]) # from ids... 


embed = tf.nn.embedding_lookup(embeddings, train_inputs) # ...to embeddings 


一 旦 模型 学 习 了 民 好 的 单词 植 入 ， 那 么 它们 实际 上 可 以 在 任何 NLP 以 
用 中 发 挥 作 用 : 毕竟， 无 论 是 什么 应 用 ，“milk” 仍 然 比较 接近 “water”， 
而 和 ”shoes" 震 距 较 大 。 事 实 上 ， 你 可 能 希望 下 载 预 训练 的 单词 仍 入 ， 
而 不 是 训练 目 己 的 。 正 如 在 重用 预 训练 层 一 样 《参见 第 11 章 ) ， 可 以 
选择 冻结 预 训练 嵌入 (BIEN, BERRA BE) ， 或 者 让 有 反 向 传播 调整 
应 用 程序 。 第 一 种 选择 将 会 加 快 培训 ， 第 二 种 可 能 会 提高 性 能 。 


A 识 入 对 于 代表 可 能 占用 大 量 不 同 值 的 分 类 属性 也 很 有 用 处 ， 特 别 是 
ee eee 
» 品牌 ， 等 等 。 


我 们 已 经 拥有 了 实现 一 个 机 器 翻译 系统 的 所 有 工具 。 现 在 一 起 看 看 如 
何 实现 吧 。 


用 于 机 器 翻译 的 编码 如 -解码 侨 网 络 


我 们 来 看 看 一 个 将 英语 翻译 为 法 语 的 简单 机 器 翻译 模型 ( 
https://goo.g/0g9zwP_) |! ( 见 图 14-15) ° 


Target: Je bois du lait <805> 
Prediction; Je bois le lait <805> 


288 3335 72 0 51 232 21 4 


“ milk drink |" “ <go> Je bois du lait” 


图 14-15: — fal AW Las Bu R 


英语 句子 被 输入 到 编码 器 ， 然 后 解码 器 输出 法 语 翻 译 。 注 意 ， 法 语 翻 
译 也 作为 解码 器 的 输入 ， 但 是 回 退 一 步 。 换 句 话说 ， 解 码 器 的 输入 应 
该 是 它 在 前 一 步 的 输出 (不 管 它 实际 输出 了 什么 ) 。 第 一 个 单词 给 出 
了 表示 句子 开始 的 令 牌 〈 例 如 , “<go>”) 。 解 码 器 被 预期 以 一 个 结束 
序列 (end-of-sequence, EOS) fi 〈 例 如 , “<eos>”) 来 结束 句子 。 


注意 ， 英 文句 子 再 被 输入 到 编码 器 之 前 的 顺序 是 颠倒 的 。 例 如 ，“ 所 
drink milk” #2502) A “milk drink I”。 这 是 为 了 保证 英语 句子 的 第 一 个 单 
词 是 最 后 一 个 被 输入 到 编码 器 的 ， 这 很 用， 因为 它 应 该 是 解码 右 第 
一 个 要 翻译 的 内 容 。 


最 初 ， 每 个 单词 都 使 用 一 个 简单 的 整数 标识 符 代表 (例如 ，288 代 表单 
ns oak ') o RRGRKA BORE RA (如 以 前 所 介绍 的 ， 这 是 一 个 
` REHE) 。 和 单词 租 入 才 古 最 终 输 入 到 编码 右 和 解码 右 的 内 


- 


在 每 一 步 中 ， 解 码 妖 输出 词汇 表 中 每 个 单词 的 分 数 ， 然 后 Softmax 层 将 
这 些 分 数 转换 为 概率 。 例 如 ， Je” 可 能 具有 20% 的 概 
R, “Tu 可 能 有 1% 的 概率 等 等 。 最 终 输 出 概率 最 高 的 单词 ， 所 以 可 以 
使 用 cof nd cio Gane i eo O 画 数 来 训练 模型 。 


注意 ,在 推理 时 间 (训练 之 后 ) ， 没 有 提供 给 解码 器 的 最 终 目 标 句 
子 。 相 反 ， 只 简单 地 提供 给 它 前 一 步 的 输出 ， 如 图 14-16 所 示 (将 需要 
一 个 图 中 没有 显示 的 嵌入 查找 ) 。 


<go> 


图 14-16: 在 推理 时 间 将 前 一 步 的 输出 作为 输入 


现在 已 经 有 一 张 蓝 图 。 如 果 浏 览 了 TensorFlow 的 序列 到 序列 教程 ， 并 读 
了 mn/translate/seq2seq_model.py 里 面 的 代码 ， 可 以 发 现 一 些 重要 区 别 : 


首先， 到 目前 为 止 ， 假设 所 有 输入 序列 〈 到 编码 器 和 解码 器 ) 都 具有 
恒定 长 度 。 但 是 显然 句子 的 长 度 会 有 所 不 同 。 有 几 种 方法 可 以 解决 这 


个 问题 ， 例 如 ， 对 static_mn () 和 dynamic_rnn () 使 用 sequence_length 
参数 来 指明 每 个 句子 的 长 度 (如 前 文 所 述 ) 。 然 而 ， 该 教程 采用 另 一 
种 方法 〈 大 概 是 出 于 性 能 的 考虑 ) : 句子 被 按照 长 度 分 入 类 似 长 度 的 
桶 (bucket) (例如 1 到 6 个 单词 的 句子 被 分 入 男 一 个 桶 ，7 到 12 个 单词 
的 句子 被 分 入 另 一 个 桶 等 BL) ， 并 且 使 用 特殊 的 填充 令 牌 来 填充 短 名 
子 〈 例 如, “<pad>”) © M0, “I drink milk” 会 变 为 “milk drink P’, EAD 
翻译 会 变 为 “Je bois du lait<eos><pad>”。 当 然 ， 我 们 和 硕 望 忽略 EOS 令 牌 
后 的 所 有 输出 。 为 此 ， 该 教程 的 实现 使 用 了 一 个 target_weights 回 量 。 例 
如 ， 对 于 目标 句子 “Je bois du lait<eos><pad>”， 其 权重 会 设置 为 [1.0， 
1.0，1.0，1.0，1.0，0.0] (注意 ， 权 重 为 0.0 的 部 分 对 应 了 句子 中 的 填充 
SHE) 。 人 简单 地 用 目标 权重 乘 以 损失 ， 会 将 EOS 令 牌 后 面 的 单词 对 应 
的 损失 输出 为 零 。 


:其 次 ， 当 输出 词汇 量 特别 大 时 〈 本 例 就 是 这 种 情况 ) ， 输 出 每 个 单词 
的 概率 就 会 相当 低 。 如 果 目 标 词汇 包含 50000 个 法 语 单词 ， 编 码 器 则 会 
输出 50000 维 向 量 ， 然 后 在 如 此 大 的 一 个 向 量 上 计算 softmax 夯 数 的 计算 
将 会 特别 密集 。 解 决 这 种 情况 的 方案 之 一 是 使 解码 器 输出 较 小 的 癌 

量 ， 例 如 1000 维 回 量 ， 然 后 使 用 采样 技术 来 佑 计 损 失 ， 而 不 必 在 目标 
词汇 表 的 每 个 单词 上 计算 它 。 这 种 最 大 采样 (Sampled Softmax) 技术 
在 2015 年 被 Sébastien Jean 等 人 [提出 。 在 TensorFlow 中 ， 可 以 调用 
sampled_softmax_loss () 函数 来 使 用 它 。 


.再 次 ， 本 教程 的 实现 使 用 了 一 个 注意 力 机 制 (attention mechanism) ， 
让 解码 器 罕 视 输入 序列 的 内 容 。 注 意 力 增强 的 RNN 超 出 了 本 书 的 范 
围 ， 如 果 有 兴趣 ， 这 里 有 一 些 使 用 注意 力 进行 机 器 翻译 ( 
https://go0.g/8RCous ) tS、 机 器 阅读 (https://goo.g/XONaus ) [外 和 
图 像 捕捉 (https://goo.gVxmhvfK ) [等 的 相关 论文 。 


最终， 教程 的 实现 使 用 了 tf.nn.legacy_seq2seq 模 型 ， 该 模块 提供 了 各 种 
轻松 构建 编码 器 -解码 器 模型 的 工具 。 例 如 ，embedding_rnn_seq2seq 

O 函数 提供 了 一 个 可 以 上 自动 处 理 单词 藤 入 的 简单 编码 右 - 解 码 需 模 
型 ， 如 图 14-15 所 示 。 该 代码 可 以 被 迅速 更 新 ， 以 便 使 用 新 的 
tf.nn.seq2seq 模 块 。 


现在 已 经 有 了 序列 到 序列 教程 实施 需要 的 所 有 工具 。 掌 握 它 ， 去 训练 
一 个 目 己 的 英语 到 法 语 的 翻译 絮 吧 1 


[1]_ 更 多 详细 信息 ， 参 Jl Christopher Olah 的 著名 
( https://goo.g1/5rLNTj ) ， 或 者 Sebastian Ruder 的 一 P ¥ 
(https://go0.gl/ojJjiE) ° 
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[2] “Sequence to Sequence learning with Neural Networks”, ，I.Sutskever 等 


人 (2014) 。 
[3] 教程 中 使 用 的 bucket 的 大 小 不 同 。 


[4]_“On Using veiy Large Target Vocabulary for Neural Machine 
Translation”, S.Jean& A (2015) 。 


[b] “Neural Machine Translation by Jointly Learning to Align and 
Translate”, D.Bahdanau= A (2014) 。 


[6] “Long Short-Term Memory-Networks for Machine Reading”, J.Cheng 
(2016) ° 


[Z] “Show, Attend and Tell: Neural Image Caption Generation with Visual 
Attention”, K.Xu 等 人 (2015) 。 


练习 


1. 你 能 想到 一 个 序列 到 序列 的 RNN 应 用 吗 ? 一 个 序列 到 向 量 的 RNN 
We? 一 个 向 量 到 序列 的 RNN 呢 ? 


2. 人 们 为 什么 使 用 编码 器 -解码 器 RNN 而 不 是 纯 序列 到 序列 RNN 来 进行 
目 动 翻译 ? 


.怎么 样 将 卷 积 神经 网 络 和 RNN 结 合 起 来 进行 视频 分 类 ? 


4. 在 构建 RNN 时 使 用 dynamic_rnn () 而 不 是 static_rnn () 的 优势 是 什 
AF 


5. 如 何 处 理 变 长 输入 序列 ? 变 长 输出 序列 又 会 怎样 ? 
6. 在 多 个 GPU 之 则 分 配 训练 和 执行 层次 RNN 的 常见 方式 是 什么 ? 


7.Hochreiter 和 Schmidhuber 在 他 们 关于 LSTM 的 论文 里 使 用 了 磐 入 式 的 
Reber 语 法 。 它 们 是 一 些 用 来 生成 字符 串 ( 例 

如 ，“BPBTSXXVPSEPE”) 的 人 造 语法 。 查 看 Jenny Orr 对 这 个 主题 的 
介绍 (https://g00.g/7CkNRn_) 。 选 择 一 个 特定 的 租 入 Reber 语 法 ， 然 
后 训练 一 个 RNN 来 识别 一 个 字符 串 是 否 符合 该 语法 。 首 先 需要 编写 一 
个 函数 来 生成 训练 批 次 数据 ， 其 中 50% 的 字符 串 符合 该 语法 ， 男 外 的 
50% 不 符合 。 


8. 解 决 “How much did it rain? II”Kaggle 比 赛 (https://goo0.g/0DS5Xe ) 
问题 。 这 是 一 个 时 间 序 列 预测 任务 : 已 知 一 个 偏振 雷达 值 ， 然 后 要 求 
预测 每 小 时 雨量 总 数 。Luis Andre Dutra e Silva 对 他 曾经 在 比赛 中 获得 
第 二 的 技术 给 出 一 些 有 趣 的 见解 《https:/goo.gUfTA90W ) 。 特 别 是 ， 
使 用 了 两 个 LSTM 层 组 成 了 一 个 RNN。 


9. 通 读 TensorFlow 的 Word2Vec 教 程 (_https://g00.gVedArdi_) 来 创建 单词 
在 入 ， 然 后 通读 Seq2Seq 教 程 (https:/goo.gVL82gvS ) 训练 一 个 英语 到 
法 语 的 翻译 系统 。 


练习 的 解决 方案 详 见 附录 A 。 
第 15 草 ” 目 动 编码 如 


目 动 编码 右 是 能 够 在 无 须 任何 监督 例如， 训练 数 据 集 没有 任何 标 

记 ) 的 情况 下 学 习 有 效 表示 输入 数据 ( 称 为 编码 ， 的 人 工 神经 网 络 。 
这 种 编码 通 种 比 输入 数据 的 维度 低 得 多 ， 使 得 自动 编 码 可 以 用 来 降低 
维度 〈 见 第 8 章 ) 。 更 重要 的 是 ， 自 动 编码 器 作为 强大 的 特征 检测 器 ， 
可 以 用 于 深层 神经 网 络 的 无 监督 训练 〈 如 第 11 章 所 讨论 的 ) 。 最 后 ， 

它们 能 够 生产 与 训练 数据 非常 相 似 的 新 数据 ， 这 被 称 为 生成 模型 。 例 
如 ， 使 用 面部 图 片 训练 自动 编码 器 ， 然 后 它 可 以 生成 新 的 面部 图 片 。 


令 人 惊讶 的 是 ， 目 动 编 码 絮 通过 简单 地 学 习 将 它们 的 输入 复制 到 输出 
来 工作 。 这 听 起 来 像 是 一 个 微不足道 的 工作 ， 但 是 我 们 将 看 到 各 种 方 
式 的 网 络 限制 使 得 它 变 得 相当 困难 。 例 如 ， 可 以 限制 内 部 表示 的 尺 
寸 ， 或 者 向 输入 添加 噪音 并 训练 网 络 恢复 原始 输入 。 这 些 限制 阻止 了 
目 动 编码 右 直 接 将 输入 复制 到 输出 ， 从 而 所 使 它们 学 习 有 效 代 表 数 据 
T ea Fi ee A DAS at TE EER BY RA UE 
法 的 附属 品 。 


本 章 将 深入 介绍 目 动 编码 器 的 工作 原理 ， 可 以 施加 什么 类 型 的 约束 ， 
以 及 如 何 使 用 TensorFlow 实 现 它们 ， 无 论 是 用 于 降 品 、 竺 征 提 取 、 无 监 
督 预 训练 ， 还 是 生成 模型 。 


局 效 的 数据 表示 
下 面 的 哪个 序列 比较 容易 记忆 ? 
.40，27，25，36，81，57，10，73，19，68 


00, 25, 76, 38, 19, 58, 29, 88, 44, 22, 11, 34, 17, 52, 26, 
13, 40, 20 


乍 一 看 ， 似 乎 第 一 个 序列 要 更 加 容易 一 点 ， 因 为 它 看 起 来 短 很 多 。 但 
和 是， 如 果 仔 细 观 察 第 二 个 序列 ， 你 可 能 注意 到 它 遵 从 两 个 简单 地 规 
则 : 偶数 后 的 数 是 它们 的 一 半 ， 奇 数 后 的 数 是 它们 的 三 倍加 一 〈 这 是 
一 个 著名 的 数列 ， 被 称 为 冰 蜀 数列 ) 。 一 旦 注意 到 这 个 模式 ， 第 二 个 
序列 就 会 比 第 一 个 序列 容易 记忆 ， 因 为 你 只 需要 记 住 两 个 规则 ， 第 一 
个 数字 和 序列 的 长 度 。 如 果 能 够 迅速 而 容易 地 记 住 很 长 的 序列 ， 你 可 
能 束 不 会 在 意 第 二 个 序列 是 否 存 在 模式 ， 而 只 需要 在 心中 记 住 每 个 数 
字 即 可 。 但 是 事实 上 ， 记 住 长 序列 非常 困难 ， 这 使 得 识别 模式 变 得 很 
有 用 ， 硕 望 这 也 澄清 了 为 什么 在 训练 期 间 限 制 自 动 编码 器 促使 它 发 现 
和 利用 了 数据 中 的 模式 。 


20 世 纪 70 年 代 初 ，William Chase 和 Herbert Simont HR, T WI ` RAAR 
式 匹 配 之 间 的 关系 。 出- 他 们 观察 到 专家 级 的 棋 手 能 够 在 5 秒 内 记 住 游戏 
中 所 有 棋子 的 位 置 ， 这 是 绝 大 多 数 人 望尘莫及 的 。 然 而 ， 这 种 情况 只 
发 生 在 这 些 棋子 被 放置 在 真实 游戏 中 的 实际 位 置 上 ， 而 不 是 随机 放置 
的 位 置 。 国 际 象棋 专家 并 不 比 你 我 有 更 好 的 记忆 力 ， 只 是 因为 他 们 有 
对 象棋 模式 更 加 容易 记忆 。 注 意 ， 模 式 帮 助 他 们 有 效 地 
Fiala ° 


与 记忆 试验 中 的 围棋 选手 一 样 ， 目 动 编码 紫 查 看 输入 ， 将 它们 转化 为 
有 效 的 内 部 表示 ， 然 后 输出 一 些 看 起 来 和 输入 很 像 的 东西 。 一 个 目 动 
编码 需 总 是 由 两 部 分 组 成 : 第 一 部 分 是 将 输入 转化 为 内 部 表示 的 编码 
器 《或 者 称 为 识别 网 络 ) ， 第 二 部 分 是 将 内 部 表示 转换 为 输出 的 解码 
器 (或 者 称 为 生成 网 络 ) ， 见 图 15-1。 


自动 编码 器 通常 和 多 层 感 知 器 (MLP， 参 见 第 10 章 ) 具有 相同 的 架 
构 ， 不 同 之 处 在 于 目 动 编码 絮 的 输出 层 的 神经 元 数量 必须 等 于 输入 层 
的 数量 。 在 这 个 例子 中 ， 只 有 一 个 由 两 个 神经 元 (编码 器 ) 组 成 的 隐 
藏 层 ， 以 及 一 个 由 三 个 神经 元 (解码 器 ， 组 成 的 输出 层 。 输 出 通常 被 
称 为 重建 ， 因 为 自动 编码 器 笠 试 重建 输入 ， 并 且 成 本 函数 包含 重建 损 
失 ， 当 重建 与 输入 不 同时 ， 该 损失 会 惩罚 模型 。 


输出 y y y 
(~A) E 
解码 器 
内 部 表示 T 
编码 器 
al À x, X, X, 


图 15-1: 国际 象棋 记忆 实验 E) 和 一 个 简单 的 目 动 编码 器 A) 


因为 内 部 表示 的 维度 低 于 输入 数据 〈 它 是 2D 而 不 是 3D) ， 因 此 自动 编 
码 器 不 完整 。 不 完整 的 自动 编码 器 不 能 简单 地 复制 输入 到 编码 ， 但 是 
它 必须 找到 一 种 输出 其 输入 副本 的 方法 。 它 被 强 制 学习 输 入 数据 中 最 
重要 的 功能 (并 删除 不 重要 的 功能 。 让 我 们 看 看 如 何 实现 一 个 用 来 
降低 维度 的 非常 简单 的 不 完整 自动 编码 器 。 


[1] “Perception in chess”, W.Chase 和 H.Simon (1973) ° 
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如 采 目 动 编 码 器 仪 使 用 线性 激活 ， 并 且 成 本 函数 是 均 方 误差 
(MSE) ， 则 表示 它 可 以 用 来 实现 主要 组 件 分 析 ( 见 第 8 章 ) 。 


以 下 代码 构建 了 一 个 简单 的 线性 目 动 编码 器 ， 用 于 执行 PCA， 将 3D 数 
据 集 投影 为 2D: 


import tensorflow as tf 


from tensorflow.contrib.layers import fully_connected 


n_inputs = 3 # 3D inputs 


n_hidden = 2 # 2D codings 


n_outputs = n_inputs 


learning_rate = 0.01 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


hidden = fully_connected(X, n_hidden, activation_fn=None) 


outputs = fully_connected(hidden, n_outputs, activation_fn=None) 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) # MSE 


optimizer = tf.train.AdamOptimizer(learning_rate) 


training_op = optimizer .minimize(reconstruction_loss) 


init = tf.global_variables_initializer() 
与 以 前 章节 所 构建 的 MLP 相 比 ， 这 段 代码 并 没有 多 大 的 不 同 。 需 要 注 
意 的 有 两 点 : 
-输出 的 数量 等 于 输入 的 数量 。 
.为 了 执行 简单 的 PCA， 我 们 设置 activation_fn=None ( 即 ， 所 有 的 神经 
元 是 线性 的 )  ， 并 且 成 本 范 数 是 MSE。 很 快 我 们 就 会 看 到 更 加 复杂 的 
目 动 编码 侨 。 
现在 让 我 们 来 加 载 数 据 集 ， 在 训练 集 上 训练 模型 ， 并 使 用 该 模型 来 对 
测试 集 进行 编码 ( 即 ， 将 其 投影 为 2D 数 据 ) : 


X_train, Xx test = [...] # load the dataset 


n_iterations = 1000 


codings = hidden # the output of the hidden layer provides the codings 


with tf.Session() as sess: 
init.run() 


for iteration in range(n_iterations): 


training_op.run(feed_dict={X: X_train}) # no labels (unsupervised) 


codings_val = codings.eval(feed_dict={X: X_test}) 


图 15-2 显 示 了 原始 的 3D 数 据 集 (AW) 和 目 动 编码 器 隐藏 层 的 输出 
( 即 编码 层 ， 如 图 右 侧 所 示 ) 。 可 以 看 到 ， 上 自动 编码 器 找到 了 最 好 的 
We 


原始 3D 数据 集 具有 最 大 方差 的 2D 投 


awe 
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图 15-2: 不 完整 的 线性 自动 编码 器 实现 的 PCA 
栈 式 目 动 编码 妖 


与 我 们 之 前 讨论 的 其 他 神经 网 络 一 样 ， 目 动 编码 絮 可 以 有 多 个 隐藏 
层 。 在 这 种 情况 下 ， 它 被 称 为 栈 式 自动 编码 器 (或 者 深度 自动 编码 
an) 。 增 加 更 多 的 层 帮助 目 动 编码 器 学 习 更 加 复杂 的 编码 。 然 而 ， 需 
要 小 心 的 是 ， 不 要 让 目 动 编码 融 变 得 太 强 大 。 想 象 一 下 ， 编 码 右 强大 
到 只 是 学 习 将 每 个 输入 映射 到 任意 单个 数字 上 (解码 器 学 习 翻 转 映 
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过 程 中 没有 任何 有 效 的 数据 表示 (并 且 不 可 能 推广 到 新 的 实例 ) 。 


栈 式 目 动 编码 器 的 结构 通常 对 称 于 中 央 隐 藏 层 (编码 层 ) 。 为 了 简单 

起 见 ， 它 看 起 来 像 一 个 三 明治 。 例 如 ， 一 个 MNIST 的 自动 编码 器 ( 见 

第 3 草 ) 可 能 有 784 个 输入 ， 随 后 是 一 个 有 300 个 神经 元 的 隐藏 层 ， 然 后 
征 一 个 有 150 个 神经 元 的 中 央 隐 藏 层 ， 然 后 是 一 个 有 300 个 神经 元 的 隐 

ae 最 后 是 一 个 有 784 个 神经 元 的 输出 层 。 这 个 栈 式 目 动 编码 器 如 图 
15-3 所 不 。 


图 15-3: 栈 式 自动 编码 器 


TensorFlow 实 现 


可 以 像 实现 一 个 常规 的 深度 MLP 一 样 实现 一 个 栈 式 自动 编码 器 。 特 别 
是 ， 可 以 使 用 我 们 在 第 11 章 训练 深度 网 络 的 技术 实现 。 例 如 ， 以 下 代 
码 使 用 He 初始 化 ，ELU 激 活 画 数 ， 以 及 t2 正则 化 构建 了 一 个 MNIST 栈 
式 自动 编码 器 。 除 了 没有 标签 外 (没有 y) ， 代 码 看 起 来 非常 熟悉 : 


n_inputs = 28 * 28 # for MNIST 


n_hiddeni 300 


n_hidden2 


150 # codings 


n_hidden3 = n_hidden1 


n_outputs = n_inputs 


learning_rate = 0.01 


12_reg = 0.001 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


with tf.contrib.framework.arg_scope( 


[fully_connected], 


activation_fn=tf.nn.elu, 


weights_initializer=tf.contrib.layers.variance_scaling_initializer(), 


weights_regularizer=tf.contrib.layers.12 regularizer(12_reg)): 


hiddent 


fully_connected(X, n_hidden1) 


hidden2 = fully_connected(hidden1, n_hidden2) # codings 


hidden3 


fully_connected(hidden2, n_hidden3) 


outputs = fully_connected(hidden3, n_outputs, activation_fn=None) 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) # MSE 


reg_losses = tf.get_collection(tf.GraphKeys .REGULARIZATION_LOSSES ) 


loss = tf.add_n([reconstruction_loss] + reg_losses) 


optimizer = tf.train.AdamOptimizer(learning_rate) 


training_op = optimizer .minimize(loss) 


init = tf.global_variables_initializer() 


你 可 以 正常 地 训练 模型 。 注 意 ， 没 有 使 用 数字 标签 (y_batch) ° 


n_epochs = 5 


batch_size = 150 


with tf.Session() as sess: 
init.run() 
for epoch in range(n_epochs): 


n_batches = mnist.train.num_examples // batch_size 


for iteration in range(n_batches): 
X_batch, y_batch = mnist.train.next_batch(batch_size) 


sess.run(training_op, feed_dict={X: X_batch}) 


权重 绑 定 


当 自 动 编码 器 和 我 们 刚刚 构建 的 那样 严格 对 称 时 ， 一 种 常见 的 技术 是 
将 解码 层 的 权重 和 编码 层 的 权重 联系 起 来 。 这 种 方式 将 模型 的 权重 减 
半 ， 提 高 训练 速度 ， 限 制 了 过 度 配置 的 风险 。 具 体 而 言 ， 如 果 自 动 编 
码 器 总 共有 N 层 (输入 层 不 计算 在 内 ) ，Wi 代码 第 L 层 的 连接 权重 
(例如 ， 第 一 层 是 输入 层 ， 第 N/2 层 是 编码 层 ， 第 N 层 是 输出 层 ) ， 然 
后 解码 层 的 权重 可 以 简单 地 定义 为 WNT =e (其 中 ，L=1， 

2, ...N/2, ) ° 


SERE, EH TensorFlowffully_connected () 函数 实现 权重 绑 定 有 


RAR: SEINE, FOESORERRIMADA— A o AAR EEE 
Ir 


activation = tf.nn.elu 


regularizer = tf.contrib.layers.12_regularizer(12_reg) 


initializer = tf.contrib.layers.variance_scaling_initializer() 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


weights1_init = initializer([n_inputs, n_hidden1] ) 


weights2_init = initializer([n_hidden1, n_hidden2] ) 


weights1 


weights2 


weights3 


weights4 


biases1 


biases2 


biases3 


biases4 


hiddent 


hidden2 


hidden3 


outputs 


tf.Variable(weightsi_init, dtype=tf.float32, name="weights1i") 


tf.Variable(weights2_init, dtype=tf.float32, name="weights2") 


tf.transpose(weights2, name="weights3") # tied weights 


tf.transpose(weights1, name="weights4") # tied weights 


tf.Variable(tf.zeros(n_hidden1), 


tf.Variable(tf.zeros(n_hidden2), 


tf.Variable(tf.zeros(n_hidden3), 


tf.Variable(tf.zeros(n_outputs), 


name="biasesi") 


name="biases2") 


name="biases3") 


name="biases4" ) 


activation(tf.matmul(X, weights1) + biases1) 


activation(tf.matmul(hidden1, weights2) + biases2) 


activation(tf.matmul(hidden2, weights3) + biases3) 


tf.matmul(hidden3, weights4) + biases4 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) 


reg_loss 


regularizer(weights1) + regularizer(weights2) 


loss = reconstruction_loss + reg_loss 


optimizer = tf.train.AdamOptimizer(learning_rate) 


training_op = optimizer .minimize(loss) 


init = tf.global_variables_initializer() 


这 些 代 码 很 简单 ， 但 是 有 几 个 重要 事情 需要 注意 : 


站 


-第 一 ，weights3 和 weights4 个 是 要 量 ， 它 们 分 别 是 weights2 和 weightsl 的 
转 置 “它们 被 “ 绑 定 ”在 一 起 ) © 


.第 二 ， 因 为 它们 不 是 变量 ， 所 以 没有 必要 进行 正则 化 : 只 正则 化 
weights1 和 weights2。 


:第 三 ， 侦 置 项 从 来 不 会 被 叶 定 ， 也 不 会 被 正则 化 。 
一 次 训练 一 个 目 动 编码 郁 
相 比 于 像 我 们 这 样 一 次 训练 整个 栈 式 目 动 编码 磊 ， 一 次 训练 一 个 单独 


的 上 自动 编码 器 会 快 很 多 ， 然 后 将 它们 堆肥 为 一 个 栈 式 目 动 编码 器 ( 因 
此 而 得 名 ) ， 如 图 15-4 所 示 。 这 种 方法 对 深层 目 动 编码 紫 尤 其 有 用 。 


阶段 1 阶段 2 阶段 3 
训练 第 一 个 自动 编码 器 。 ”训练 第 二 个 自动 编码 器 枝 式 自动 编码 器 


图 15-4: 一 次 训练 一 个 自动 编码 器 


在 训练 的 第 一 阶段 ， 第 一 个 目 动 编 码 右 学 习 重 现 输入 。 在 第 二 阶段 ， 

第 二 个 自动 编码 器 学 习 重 建 第 一 个 目 动 编码 右 隐 藏 层 的 输出 。 最 终 ， 

用 这 些 所 有 的 自动 编码 器 构建 了 一 个 大 三 明治 ， 如 图 15-4 所 示 ( 即 ， 首 
先 堆 县 各 个 自动 编码 器 的 隐藏 层 ， 然 后 输出 层 将 其 顺序 反 转 ) 。 这 样 
就 得 到 了 最 终 的 栈 式 目 动 编码 器 。 用 这 种 方式 ， 可 以 轻松 地 训练 更 多 
的 目 动 编码 器 ， 来 构建 一 个 非常 深层 的 栈 式 目 动 编码 器 。 


ee 最 简单 的 方法 是 对 每 个 阶段 使 用 不 同 
的 TensorFlow 图 ， 只 需 通 过 它 来 运行 训练 集 并 捕获 隐藏 层 的 输出 。 该 输 
出 随后 作为 下 一 个 上 自动 编码 圳 的 训练 集 。 一 旦 用 这 种 方式 对 所 有 的 目 
动 编码 右 都 进行 了 训练 ， 只 需 复 制 每 个 自动 编码 器 的 权重 和 偏 置 系 
人 它们 构建 栈 式 自动 编码 器 。 "实现 方式 非常 简单 ， 不 在 这 里 
敖 述 ， 请 查看 Jupyter 笔 记 本 里 面 的 代码 ( 

https:// eo com/agęron/handson-ml ) 作为 实例 。 


ae 种 途径 是 使 用 一 个 包含 整个 栈 式 目 动 编码 器 的 单个 图 表 ， 再 加 
一 些 为 了 执行 每 个 训练 阶段 的 额外 操作 ， 如 图 15-5 所 示 。 


阶段 2 
训练 操作 


阶段 1 
训练 操作 


MSE (输出 -输入 ) 


阶段 1 输出 


MSE (隐藏 层 3- 隐藏 层 1) 


X 


相同 的 参数 


A 在 阶段 2 期 间 
固定 参数 


图 15-5: 训练 栈 式 目 动 编码 器 的 单个 图 表 
这 里 需要 一 点 解释 : 
图 表 的 中 间 列 是 完全 栈 式 目 动 编码 器 。 这 部 分 可 以 在 训练 后 使 用 。 
: 左 列 是 第 一 阶段 训练 需要 的 一 系列 操作 。 它 创造 了 一 个 绕 过 第 二 个 和 
第 三 个 隐藏 层 的 输出 层 。 这 个 输出 层 和 栈 式 自动 编码 器 分 享 相同 的 权 
重 和 侦 差 系数 。 在 其 之 上 有 是 训练 操作 ， 下 在 使 得 输出 尽 可 能 地 接近 输 
入 。 因 此 ， 该 阶段 将 为 第 一 个 隐藏 层 和 输出 层 ( 即 第 一 个 上 自动 编码 
器 ) 训练 权重 和 偏差 系数 。 


右 列 是 第 二 阶段 训练 需要 的 一 系列 操作 。 其 训练 操作 旨 在 使 得 第 二 个 
隐藏 层 的 输出 尽 可 能 与 第 一 个 隐藏 层 的 输出 相似 。 注 意 ， 必 须 在 运行 


第 二 阶段 时 冻结 第 一 隐藏 层 。 这 个 阶段 将 训练 第 二 个 和 第 三 个 隐藏 层 
( 即 第 二 个 自动 编码 器 ) 的 权重 和 偏差 系数 。 


TensorFlow 代 码 如 下 : 


[...] # Build the whole stacked autoencoder normally. 
# In this example, the weights are not tied. 


optimizer = tf.train.AdamOptimizer(learning_rate) 


with tf.name_scope("phasei"): 
phase1_outputs = tf.matmul(hidden1, weights4) + biases4 
phase1_reconstruction_loss = tf.reduce_mean(tf.square(phase1_outputs - X)) 
phase1_reg_loss = regularizer(weights1) + regularizer(weights4) 
phase1_loss = phase1_reconstruction_loss + phase1_reg_loss 


phase1_training_op = optimizer .minimize(phase1_loss) 


with tf.name_scope("phase2"): 
phase2_reconstruction_loss = tf.reduce_mean(tf.square(hidden3 - hidden1) ) 
phase2_reg_loss = regularizer(weights2) + regularizer(weights3) 
phase2_loss = phase2_reconstruction_loss + phase2_reg_loss 


train_vars = [weights2, biases2, weights3, biases3] 


phase2_training_op = optimizer .minimize(phase2_loss, var_list=train_vars) 


第 一 阶段 很 商 单 : Bile TS ANB — SER = “EE ST HJ, 
pe eee ame eee a 


第 二 阶段 增加 了 最 小 化 隐藏 层 3 和 隐藏 层 1 输出 之 间 的 距离 所 需要 的 操 
作 《也 有 一 些 正 则 化 ) 。 更 重要 的 是 ， 我 们 为 minimize O 方法 提供 了 
可 训练 的 变量 列表 ， 确 保 忽 略 weights1 和 biases1; 以 便 在 第 二 阶段 有 效 
地 冻结 隐藏 层 1。 


在 执行 阶段 ， 需 要 做 的 所 有 事情 是 在 第 一 阶段 训练 操作 数 次 ， 然 后 执 
行 第 二 阶段 训练 操作 更 多 次 。 


A 因为 在 第 一 阶段 隐藏 层 1 被 冻结 ， 所 以 对 于 任意 给 定 的 训练 实例 
它 的 输出 总 是 相同 的 。 为 了 避免 需要 在 每 个 单独 的 时 间 点 重新 计算 隐 
藏 层 1 的 输出 ， 可 以 在 第 一 阶段 结束 的 时 候 为 整个 训练 集 计算 它 ， 然 后 
直接 在 第 二 阶段 馈 运 隐藏 层 1 的 输出 缓存。 这 将 有 很 多 的 性 能 提升 。 
重建 可 视 化 

保证 目 动 编码 紫 个 合适 训练 的 一 种 方法 是 比较 输入 和 输出 。 它 们 必须 
ee ee Se ee 

其 重建 : 


n_test_digits = 2 


X_test = mnist.test.images[:n_test_digits] 


with tf.Session() as sess: 


[...] # Train the Autoencoder 


outputs_val = outputs.eval(feed_dict={X: X_test}) 


def plot_image(image, shape=[28, 28]): 


plt.imshow(image.reshape(shape), cmap="Greys", interpolation="nearest") 


plt.axis("off") 


for digit_index in range(n_test_digits): 


plt.subplot(n_test_digits, 2, digit_index * 2 + 1) 


plot_image(X_test[digit_index] ) 


plt.subplot(n_test_digits, 2, digit_index * 2 + 2) 


plot_image(outputs_val[digit_index]) 


图 15-6 展 示 了 结果 图 片 。 


图 15-6: 原始 数字 (A) 和 它们 的 重建 CA) 


看 起 来 十 分 相似 。 所 以 自动 编码 器 已 经 学 会 了 重 现 其 输入 ， 但 是 它 是 
否 学 会 了 有 用 的 特征 ? 让 我 们 来 看 看 。 


特征 可 视 化 


一 旦 你 的 目 动 编码 右 学 会 了 某 些 特征 ， 你 可 能 想 看 看 它们 。 有 各 种 技 
术 可 以 满足 你 的 愿望 。 其 中 ， 最 简单 的 技术 是 考虑 隐藏 层 的 每 个 神经 
元 ， 然 后 找到 激活 它 最 多 的 训练 实例 。 该 技术 对 顶层 的 隐藏 层 尤其 有 
用 ， 因 为 它们 经 闻 捕 获 相 对 大 的 特征 ， 可 以 容易 地 从 一 组 包 侣 它们 的 
训练 实例 中 发 现 。 例 如 ， 如 采 一 个 神经 元 在 看 到 图 片 中 有 猫 时 被 强烈 
激活 ， 那 么 很 明显 激活 它 的 照片 大 多 数 都 包含 猫 。 然 而 ， 对 于 比较 低 
的 隐藏 屋 ， 该 技术 束 不 是 很 私 效 ， 因 为 特征 相对 比较 小 而 且 更 抽象 ， 
所 以 通常 很 难 准 确 地 了 解 神经 元 是 如 何 被 激活 的 。 


我 们 来 看 看 另 一 种 技术 。 对 于 第 一 个 隐藏 层 的 每 个 神经 元 ， 可 以 创建 
一 个 图 像 ， 其 中 每 一 个 像素 的 强度 代表 了 连接 到 给 定神 经 元 的 权重 。 
例如 ， 如 下 代码 展示 了 第 一 个 隐藏 层 的 5 个 神经 元 学 到 的 特征 : 


with tf.Session() as sess: 


[...] # train autoencoder 


weights1_val = weights1.eval() 


for i in range(5): 


plt.subplot(1, 5, i+ 1) 


plot_image(weightsi_val.T[i] ) 


你 可 能 会 得 到 如 图 15-7 所 示 的 低层 特征 。 


图 15-7: 第 一 个 隐 着 层 的 神经 元 学 习 到 的 特征 


前 四 个 特征 对 应 于 小 块 符 征 ， 第 五 个 特征 在 村 找 垂直 笔画 (注意 ， 这 
些 特征 来 自 于 后 面 将 要 讨论 的 堆 受 去 噪 自动 编码 器 ) 。 


男 外 一 种 技术 是 向 自动 编码 器 馈送 随机 输入 图 像 ， 测 量 你 感 兴 趣 的 神 
经 元 的 激活 ， 然 后 执行 反 向 传播 ， 以 使 得 神经 元 激活 更 多 的 方式 调整 
AAR: WRENS IK 《性 能 逐渐 上 升 ) ， 图 像 逐 渐变 为 令 神经 元 
兴奋 的 图 像 * 这 是 一 种 非常 有 用 的 技术 采 可 视 化 钊 经 元 弓 找 的 输入 类 


最 终 ， 如 果 使 用 自动 编码 器 来 执行 无 监督 的 预 训练 ， 例 如 分 类 器 。 一 
ee eee fe AEN REMER 
He ° 


fE FA FEE AY A OSES eee tT TC tn PEAY FOZ 


正如 我 们 在 第 11 章 所 讨论 的 ， 如 果 正 在 执行 一 个 复杂 的 监督 任务 ， 但 
征 没有 足够 多 的 已 标记 训练 数据 ， 解 决 方案 之 一 是 找到 一 个 执行 类 似 
任务 的 神经 网 络 ， 然 后 重用 它 的 的 层 。 这 样 束 可 以 使 用 较 少 的 训练 数 
据 来 训练 高 性 能 模型 ， 因 为 你 的 神经 网 络 不 用 学 习 所 有 的 低层 特征 ; 
它 将 重用 现 有 网 络 的 特征 探测 器 。 


类 似 地 ， 如 果 你 有 一 个 大 数据 集 ， 但 是 大 部 分 数据 都 没有 被 标记 ， 
以 首先 使 用 所 有 数据 训练 一 个 扒 受 的 目 动 编码 瑚 ， Rin AE SEER 
为 你 的 实际 任务 创建 一 个 神经 网 络 ， 并 使 用 已 标记 的 数据 来 训练 它 。 
例如 ， 图 15-8 显 示 了 如 何 使 用 一 个 堆 且 的 目 动 编码 万 对 分 类 神经 网 络 进 
行 无 监督 的 预 训练 。 如 前 所 述 ， 堆 县 的 目 动 编码 做 目 身 通 币 一 次 训练 


一 个 目 动 编码 器 。 当 训练 分 类 器 时 ， 如 果 你 实在 没有 太 多 的 已 标记 训 
练 数据 ， 则 可 能 需要 冻结 预 训练 层 (至 少 是 较 低层 ) 。 


` 这 种 情况 很 普遍 ， 因 为 构建 一 个 大 的 未 标记 的 数据 集 通 常 比较 容易 
(例如 ， 一 个 简单 的 脚本 可 以 从 网 络 上 下 载 数 百 万 张 图 片 ，， 但 是 可 

靠 的 标记 它们 只 能 由 人 类 完成 例如， 将 图 片 分 为 可 爱 和 不 可 爱 ) 。 

标记 实例 耗 时 而 且 昂 贵 ， 因 此 只 有 数 千 个 已 标记 实例 的 情况 非常 普 


i 


阶段 1 阶段 2 
使 用 所 有 的 数据 训练 自动 编码 器 在 已 标记 数据 上 训练 分 类 器 


图 15-8: 使 用 目 动 编码 郁 进 行 无 监督 的 预 训练 


正如 我 们 之 前 讨论 的 ，2006 年 Geoffrey Hinton 等 人 的 发 现 : 深度 神经 网 
络 可 以 被 无 监督 的 方式 预 处 理 ， 是 触发 目前 深度 学 习 海 啸 的 因素 之 
一 。 他 们 使 用 了 限制 性 的 Boltzmann 机 器 来 研究 它 〈 见 附录 E) ， 但 是 


在 2007 年 ，Yoshua Bengio 等 人 (https:/g00.gVR5L7HJ) 出 的 研究 显示 
自动 编码 器 也 可 以 工作 得 一 样 好 。 


TensorFlow 的 实现 相当 简单 :只 需要 用 所 有 的 训练 数据 训练 一 个 自动 编 
码 器 ， 然 后 复 用 它 的 编码 层 创 建 一 个 新 的 神经 网 络 (更 多 关于 如 何 复 
al 请 参见 第 11 章 ， 或 者 查看 Jupyter 笔 记 本 中 的 代码 
7R YI 


至 此 ， 为 了 强制 目 动 编码 着 学 习 有 用 的 特征 ， 我 们 限制 了 编码 层 的 大 
小 ， 使 其 不 够 完整 。 实 际 上 我 们 可 以 使 用 一 些 其 他 类 型 的 限制 来 得 到 
一 个 完整 的 编码 化 ， 包 括 允 许 编 码 层 和 输入 的 天 小 一 致 ， 或 者 更 大 。 
我 们 下 面 来 看 一 看 这 其 中 的 一 些 方法 。 


[1]_“Greedy Layer-Wise Training of Deep Networks” , Y.Bengio 等 人 
(2007) 


AAR H OAS ae 


APRE A mar BARRE Se eA Pe Rs, VI 
练 它 以 恢复 原始 的 无 吕 首 输入。 这 种 方法 阻止 了 目 动 编码 如 简单 地 复 
制 其 输入 到 输出 ， 最 终 必须 找到 数据 中 的 模式 。 


自 20 世 纪 80 年 代 以 来 ， 这 种 使 用 自动 编码 器 去 除 噪音 的 方式 就 一 直 存 
在 (例如 ，Yann LeCun 硕 士 1987 年 发 表 的 论文 就 已 提 到 该 自动 编码 

at) 。2008 年 ，Pascal Vincent 等 人 发 表 的 论文 (https:/goo.gVK9pqcx 
) 出 表明 ， 自 动 编码 器 也 可 以 用 于 特征 提取 。2010 年 ，Vincent 等 人 的 
论文 httpsWgoo.gVHgCDIA ) 二 介绍 了 堆 县 的 去 噪 自动 编码 器 。 


噪音 可 以 是 添加 到 输入 中 的 纯 高 斯 噪音 ， 或 者 是 随机 打 断 输入 的 吗 
音 ， 如 dropout (第 11 章 介绍 的 ) 。 图 15-9 显 示 了 上 面 的 两 种 方法 。 


图 15-9: 去 噪 自 动 编码 器 ， 高 斯 噪音 (Ze) 或 dropout (A) 

TensorFlow 实 现 
在 TensorFlow 实 现 去 品目 动 编码 万 不 是 很 难 。 主 我 们 从 高 斯 噪音 开始 。 
除了 为 输入 增加 噪音 和 根据 原始 输入 计算 重建 损坏 之 外 ， 它 和 训练 党 
规 目 动 编码 器 很 相似 : 

X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 

X_noisy = X + tf.random_normal(tf.shape(X) ) 

[...] 


hidden1 = activation(tf.matmul(X_noisy, weights1) + biases1) 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) # MSE 


Pek asa x A ERE ECE SC, PAA BE PUA aS On BUX [a] BS A 
的 回 量 。 我 们 不 能 调用 X.get_shape () ， 因 为 这 将 只 返回 部 分 定义 的 X 
([None，n_inputs]) 向 量 ， Sa () 返回 一 个 完整 定义 的 
回 量 ， 所 以 它 将 引发 异常 。 相 反 ， 我 们 调用 tf.shape (X) ， 它 创建 了 一 
个 在 运行 时 返回 该 点 完全 定义 的 X 回 量 的 操作 。 


=" } 
实现 更 常见 的 dropout 版 本 也 不 是 很 难 : 
from tensorflow.contrib.layers import dropout 
keep_prob = 0.7 
is_training = tf.placeholder_with_default(False, shape=(), name='is_training') 
X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


X_drop = dropout(X, keep_prob, is_training=is_training) 


hidden1 = activation(tf.matmul(X_drop, weightsi) + biases1) 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) # MSE 


[...] 


在 训练 期 间 ， 必 须 使 用 feed_dict 设 置 is_training 的 值 为 True (如 第 11 章 所 
解释 的 ) : 


sess.run(training_op, feed_dict={X: X_batch, is_training: True}) 


在 测试 期 间 没 有 必要 设置 is_training 为 False， 因 为 调用 
placeholder_with_default () 函数 时 我 们 设置 其 为 默认 值 。 


[1]_“Extracting and Composing Robust Features with Denoising 
Autoencoders”, P.Vincent 等 人 (2008) 。 


[2|_“Stacked Denoising Autoencoders: Learning Useful Representations in 
a Deep Network with a Local Denoising Criterion” , P.Vincent 等 人 
(2010) 。 
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Fy — PS BU PEGE AAR ce IE: 通过 在 成 本 图 数 中 增加 适 
当 的 条 件 ， 推 动 自动 编码 器 减 小 编码 层 中 活动 神经 元 的 数量 。 例 如 ， 

可 能 使 得 编码 层 只 有 平均 5% 的 显著 激活 神经 元 。 这 迫使 自动 编码 右 使 
用 少量 激活 神经 元 的 组 合 来 表示 输入 。 结 有 末 ， 编 码 层 的 每 个 神经 元 都 
最 终 代表 一 个 有 用 特征 《如 采 你 每 个 月 只 能 说 几 个 单词 ， 那 么 你 可 能 


会 尝试 让 它们 变 得 有 意义 ) 。 


为 了 有 利于 稀 疏 性 模型 ， 必 须 百 先 测量 每 个 训练 迄 代 编码 层 的 实际 黎 
焉 度 。 我 们 通过 计算 整个 训练 批 次 中 编码 层 每 个 神经 元 的 平均 激活 程 
度 来 实现 。 批 次 的 尺寸 不 能 太 小 ， 否 则 不 能 准确 计算 平均 值 。 


一 旦 得 到 了 每 个 神经 元 的 平均 激活 度 ， 我 们 希望 通过 给 成 本 画 数 添加 
稀 玖 性 损失 以 削弱 过 度 激活 的 神经 元 。 例 如 ， 如 果 测 量 得 到 一 个 神经 
元 的 平均 激活 度 是 0.3， 但 是 目标 稀 玻 度 是 0.1， 则 必须 削弱 其 激活 度 。 


一 种 简单 的 方法 是 通过 给 成 本 函数 增加 平方 误差 (0.3-0.1) 2, (AS 
际 上 更 好 的 方法 是 使 用 Kullback-Leibler 散 度 (第 4 章 简 要 讨论 过 ) ， 如 
图 15-10 所 示 ， 它 比 均 方 误差 具有 更 强 的 梯度 。 


给 定 两 个 离散 概率 分 布 P 和 Q， 可 以 使 用 公式 15-1 计 算 该 分 布 之 间 的 KL 
散 度 ， 表 示 为 DKL (PQ) ° 


0.0 02 04 06 08 1.0 
实际 稀疏 度 


图 15-10: ARETE 
公式 15-1: Kullback-Leibler 散 度 


D,.(P | Q) = F POs r 


在 本 例 中 ， 我 们 想 要 计算 神经 元 在 编码 层 被 激活 的 目标 概率 p， 及 实际 
概率 q ( 即 ， 训 | 练 批 次 的 平均 激活 度 ) 之 间 的 差距 。 所 以 ，KL 散 度 可 以 
简化 为 公式 15-2。 


公式 15-2: 目标 稀疏 度 p 和 实际 稀 疏 度 q 之 间 的 KL 散 度 
,i 1-p 
一 旦 计算 了 编码 层 每 个 神经 元 的 稀 芷 度 损 失 ， 我 们 只 需要 累加 这 些 损 
失 ， 然 后 将 其 结果 加 到 成 本 函数 中 。 为 了 控制 稀疏 度 损 伤 和 重建 损失 
的 相对 重要 性 ， 我 们 可 以 通过 一 个 稀 朴 度 权 重 超 参数 来 增加 稀 下 度 损 
失 。 如 果 这 个 权重 过 高 ， 模 型 将 非常 接近 目标 稀 芷 度 ， 但 是 可 能 不 能 
正确 地 重建 输入 ， 使 得 模型 元 用 。 相 反 ， 如 果 它 的 值 过 低 ， 模 型 将 名 
略 大 多 数 稀 足 性 目标 ， 并 且 学 习 不 到 什么 有 用 特征 。 
TensorFlow 实 现 


现在 要 做 的 是 使 用 TensorFlow 实 现 一 个 稀 芷 自动 编码 需 ; 


Dy (p lg) = p log | - p)log 


def kl_divergence(p, q): 


return p * tf.log(p / q) + (1 - p) * tf.log((1 - p) 7 (1 - q)) 


learning_rate = 0.01 


sparsity_target = 0.1 


sparsity_weight = 0.2 


[...] # Build a normal autoencoder (in this example the coding layer is hidden1) 


optimizer = tf.train.AdamOptimizer(learning_rate) 


hiddeni_mean = tf.reduce_mean(hiddeni, axis=0) # batch mean 


sparsity_loss = tf.reduce_sum(kl_divergence(sparsity_target, hiddeni_mean) ) 


reconstruction_loss = tf.reduce_mean(tf.square(outputs - X)) # MSE 


loss = reconstruction_loss + sparsity_weight * sparsity_loss 


training_op = optimizer .minimize(loss) 


一 个 重要 的 细节 是 ， 编 码 层 激活 度 的 值 是 在 0 到 1 之 间 (但 是 不 等 于 0 或 
者 1) ， 否 则 KL 散 度 将 返回 NaN (Nota Number) 。 一 个 简单 的 解决 方 
案 是 为 编码 层 使 用 逻辑 激活 函数 : 


hidden1 = tf.nn.sigmoid(tf.matmul(X, weights1) + biases1) 


一 个 简单 的 技巧 可 以 加 速 收敛 : 我 们 可 以 选择 一 个 具有 较 大 梯度 的 重 
建 损耗 ， 而 不 是 使 用 ? MSE。 通 销 情 况 下 ， 交 叉 精 是 一 个 不 销 的 选 
择 。 为 了 使 用 它 ， 我 们 必须 规范 输入 ， 使 得 其 值 在 0 到 1 之 间 ， 并 对 输 
出 层 使 用 逻辑 激活 函数 ， 使 得 输出 值 也 在 0 到 1 之 间 。TensorFlow 的 


sigmoid_cross_entropy_with_logits () 函数 负责 有 效 地 将 逻辑 激活 函数 
MATADE, HRT REC SU 

[...] 

logits = tf.matmul(hidden1, weights2) + biases2) 


outputs = tf.nn.sigmoid(logits) 


reconstruction_loss = tf.reduce_sum( 


tf.nn.sigmoid_cross_entropy_with_logits(labels=x, logits=logits) ) 


注意 ， 在 训练 期 间 不 需要 输出 操作 (只 在 重建 时 使 用 ) 。 
SEIT Bate at 


另 一 种 重要 的 自动 编码 器 被 Diederik Kingma 和 Max Welling !!!--20144F 
提出 《https:/goo.gVNZqZ7r2 ) ， 并 迅速 成 为 最 受 欢迎 的 自动 编码 器 之 
一 : 变 分 目 动 编 码 絮 。 它 和 我 们 前 面 所 讨论 的 所 有 编码 絮 都 不 同 ， 特 
别 之 处 在 于 : 


它们 是 概率 目 动 编码 器 ， 这 就 意味 着 即使 经 过 训练 ， 其 输出 也 部 分 程 
度 上 决定 于 运气 (不同 于 仅 在 训练 期 间 使 用 随机 性 的 去 品目 动 编码 


BH 


器 ) 


更 重要 的 是 ， 它 们 是 生成 自动 编码 右 ， 意 味 着 它们 可 以 生成 看 起 来 像 
从 训练 样本 采样 的 新 实例 。 


这 些 特性 使 它们 类 似 于 RBMs ( 见 附录 E) ， 但 是 更 加 易于 训练 ， 采 样 
过 程 更 快 (使 用 RBMs， 需 要 在 采样 一 个 新 实例 前 ， 等 待 网 络 稳定 到 一 
个 “热平衡 "状态 ) 。 


我 们 来 看 看 它们 是 如 何 工作 的 。 图 15-11 (£) 展示 了 一 个 变 分 自动 编 
码 器 。 当 然 ， 你 可 以 识别 出 目 动 编 码 右 的 基本 结构 ， 一 个 编码 右 后 是 
一 个 解码 器 (在 这 个 例子 中 ， 它 们 都 有 两 个 隐藏 层 ) 。 但 是 有 一 点 不 
同 :， 它 的 编码 器 会 产生 平均 编码 py 和 标准 偏差 sg， 而 不 古 为 给 定 输入 直 
接 产 生 一 个 编码 。 然 后 从 平均 值 bH 和 标准 偏差 c 的 高 斯 分 布 中 随机 抽取 
实际 编码 。 在 此 之 后 ， 上 自动 编码 器 只 需要 正常 地 解码 采样 编码 。 图 15- 
11 的 右 半 部 分 展示 了 一 个 通过 此 编码 器 的 训练 实例 。 首 先 ， 编 码 器 产 
生 了 kh 和 go， 然后 编码 是 随机 采样 “注意 ， 它 不 是 精确 位 于 h 中 ) ， 最 后 
这 些 编码 被 解码 ， 并 最 终 输 出 训练 实例 。 


图 15-11: 变 分 自动 编码 器 (A) ， 一 个 变 分 自动 编码 器 的 实例 CA) 


如 岁 15-11 所 示 ， 虽 然 输入 可 能 具有 非常 复杂 的 分 布 ， 变 分 目 动 编码 郁 
往往 会 产 出 一 个 像 是 从 简单 的 高 斯 分 布 后 中 采样 的 编码 : 在 训练 期 
[a], BOARS (后 文 将 讨论 ) 推动 编码 在 编码 空间 内 〈 也 称 洪 在 衬 
H) 逐步 迁移 到 看 起 来 像 一 个 高 斯 点 云 的 球面 区 域 。 一 个 重要 的 结果 
征 ， 变 分 目 动 编码 器 在 训练 之 后 ， 可 以 很 容易 地 生成 一 个 新 实例 : 仅 
仅 从 高 斯 分 布 中 抽取 随机 编码 ， 对 其 进行 编码 ， 然 后 调用 即 可 | 


接 下 来 ， 我 们 来 看 看 成 本 函数 。 它 由 两 部 分 组 成 。 首 先是 常规 的 重建 
损耗 ， 推 动 目 动 编码 器 重 现 其 输入 (如 前 所 述 ， 可 以 使 用 交叉 烂 ) 。 
第 二 部 分 是 潜在 损耗 ， 使 用 编码 的 目标 分 布 《高 斯 分 布 | 和 实际 分 布 
之 间 的 KL 散 度 ， 使 得 自动 编码 邵 的 编码 看 起 来 像 是 从 简单 的 高 斯 分 布 
中 进行 采样 。 数 学 计算 比 之 前 更 加 复杂 ， 尤 其 是 因为 高 斯 噪音 限制 了 
传输 到 编码 层 的 信息 量 (从 而 推动 目 动 编码 右 学 习 更 加 有 意义 的 特 

征 ) 。 夷 运 的 是 ， 洪 在 损坏 可 以 简化 为 如 下 代码 里 


eps = 1e-10 # smoothing term to avoid computing log(0) which is NaN 
latent_loss = 0.5 * tf.reduce_sum( 
tf.square(hidden3_sigma) + tf.square(hidden3_mean) 
- 1 - tf.log(eps + tf.square(hidden3_sigma) ) ) 
—./\ VAEN = HA A = 日 Ys ae 
常见 的 变 体 是 训练 编码 器 输出 Y=log (07) ， 而 不 是 c。 当 需要 


时 ， 可 以 通过 o=exp (y/2) 计算 。 这 使 得 编码 右 更 容易 捕获 不 同 规模 的 
信号 ， 从 而 帮助 提高 收敛 的 速度 。 潜 在 损失 最 终 将 会 比较 简单 : 


latent_loss = 0.5 * tf.reduce_sum( 


tf.exp(hidden3_gamma) + tf.square(hidden3 mean) - 1 - hidden3_gamma) 


如 下 代码 构建 了 如 图 15-11 (£) 所 示 的 变 分 自动 编码 器 ， 使 用 了 log 
(o?) 变 体 : 
n_inputs = 28 * 28 # for MNIST 
n_hidden1 = 500 
n_hidden2 = 500 
n_hidden3 = 20 # codings 
n_hidden4 = n_hidden2 


n_hidden5d 


n_hiddent 


n_outputs n_inputs 


learning_rate = 0.001 


with tf.contrib.framework.arg_scope( 


[fully_connected], 


activation_fn=tf.nn.elu, 


weights_initializer=tf.contrib.layers.variance_scaling_initializer()): 


X = tf.placeholder(tf.float32, [None, n_inputs]) 


hidden1 = fully_connected(X, n_hidden1) 


hidden2 = fully_connected(hidden1, n_hidden2) 


hidden3_mean = fully_connected(hidden2, n_hidden3, activation_fn=None) 


hidden3_gamma = fully_connected(hidden2, n_hidden3, activation_fn=None) 


hidden3_sigma tf.exp(0.5 * hidden3_gamma) 
noise = tf.random_normal(tf.shape(hidden3_sigma), dtype=tf.float32) 


hidden3 = hidden3_mean + hidden3_sigma * noise 


hidden4 


fully_connected(hidden3, n_hidden4) 


hidden5 = fully_connected(hidden4, n_hidden5) 


logits = fully_connected(hidden5, n_outputs, activation_fn=None) 


outputs = tf.sigmoid(logits) 


reconstruction_loss = tf.reduce_sum( 


tf.nn.sigmoid_cross_entropy_with_logits(labels=x, logits=logits) ) 


latent_loss = 0.5 * tf.reduce_sum( 


tf.exp(hidden3_gamma) + tf.square(hidden3_mean) - 1 - hidden3_gamma) 


cost = reconstruction_loss + latent_loss 


optimizer = tf.train.AdamOptimizer (learning _rate=learning_rate) 


training_op = optimizer .minimize(cost) 


init = tf.global_variables_initializer() 


ERAT 


现在 ， 让 我 们 用 这 个 变 分 目 动 编码 如 生 成 一 些 看 起 来 像 手写 数 子 的 图 
Ae ee 练 模型 ， 然 后 从 高 斯 分 布 中 随机 采样 编码 并 对 
进行 解 碍 


import numpy as np 


n_digits = 60 


n_epochs = 50 


batch_size = 150 


with tf.Session() as sess: 


init.run() 


for epoch in range(n_epochs): 


n_batches = mnist.train.num_examples // batch_size 


for iteration in range(n_batches): 


X_batch, y_batch = mnist.train.next_batch(batch_size) 


sess.run(training_op, feed_dict={X: X_batch}) 


codings_rnd = np.random.normal(size=[n_digits, n_hidden3] ) 


outputs_val = outputs.eval(feed_dict={hidden3: codings_rnd}) 


这 吏 完 成 了 现在 可 以 看 到 由 变 分 目 动 编码 器 生成 的 手写” 数字， 如 图 
15-12 所 示 : 
for iteration in range(n_digits): 
plt.subplot(n_digits, 10, iteration + 1) 


plot_image(outputs_val[iteration] ) 


6363403635 
AXI4Q83I 
646089059 
060935446 
[409)313¢4 
9669270295 


图 15-12: 变 分 自动 编码 器 生成 的 手写 数字 图 片 
这 些 数字 大 多 数 看 起 来 比较 真实 ， 有 一 小 部 分 看 起 来 相当 富有 “创造 
性 ”。 但 是 这 个 编码 器 仅仅 训练 了 一 个 小 时 ， 不 要 对 它 过 于 苛刻 。 训 练 
时 间 长 一 点 ， 生 成 的 数字 看 起 来 会 更 好 。 


[1] _“Auto-Encoding Variational Bayes” , D.Kingma 和 M.Welling 
(2014) 。 


[2]_ 变 分 和 目 编码 器 实际 上 更 常见 ， 代 码 不 限于 高 斯 分 布 。 


[3] 更 多 数学 细节 ， 请 查阅 变 分 自 编码 器 的 论文 原文 ， 或 者 Carl Doersch 
的 著名 教程 (2016) ° 


其 他 目 动 编码 胡 


在 图 像 识 别 、 语 音 识 别 、 文 字 翻 译 等 方面 监督 学 习 取 得 了 巨大 的 成 
功 ， 有 点 掩盖 了 无 监督 学 习 ， 但 是 实际 上 无 监督 学 习 正 在 莲 勃 发 展 
的 。 自 动 编码 器 和 其 他 无 监督 度 学 习 算法 的 新 框架 正在 不 断 提出 ， 所 
以 本 书 并 不 能 完全 覆盖 。 下 面 是 一 些 你 可 能 感 兴趣 的 其 他 自动 编码 器 
的 简单 说 明 : 

收缩 自动 编码 器 (CAE) (https://goo.g/U5t9Ux) H 


该 目 动 编码 万 在 训练 期 间 加 入 限制 ， 使 得 关于 输入 编码 的 衍生 物 比 较 
小 。 换 句 话说 ， 相 似 的 输入 会 得 到 相似 的 编码 。 


栈 式 卷 积 自动 编码 器 (https://g00.gVPTwsol ) [2 

该 自动 编码 器 通过 卷 积 层 重 构图 像 来 学 习 提取 视觉 特征 。 

随机 生成 网 络 (GSN) (https:/goo.g/HjON1m ) E! 

去 噪 自动 编码 器 的 推广 ， 增 加 了 生成 数据 的 能 

获胜 者 (WTA) 自动 编码 器 (https:/Wgoo.gVLLLvzL ) [A 

训练 期 间 ， 在 计算 了 编码 层 所 有 神经 元 的 激活 度 之 后 ， 只 保留 训练 批 
次 中 前 k% 的 激活 度 ， 其 余 都 置 为 0。 自 然 地 ， 这 将 导致 稀疏 编码 。 此 
外 ， 类 似 的 WTA 方法 可 以 用 于 产生 稀疏 卷 积 自 动 编码 器 。 

对 抗 目 动 编码 器 (https://g00.gVenC5fB) |! 


一 个 网 络 被 训练 来 重 现 输 入 ， 同 时 另 一 个 网 络 被 训练 来 找到 不 能 正确 
重建 第 一 个 网 络 的 输入 。 这 促使 第 一 个 自动 编码 器 学 习 鲁 棒 编 码 。 


[1]_Contractive Auto-Encoders : Explicit Invariance During Feature 
Extraction”, S.Rifai@ A (2011) 


[2] “Stacked Convolutional Auto-Encoders for Hierarchical Feature 
Extraction”, J.MasciS# A (2011) 


[3] “GSNs: Generative Stochastic Networks”, G.Alain 等 人 (2015) 


[4|_“Winner-Take-All Autoencoders” , A.Makhzani 和 B.Frey (2015) 


[5|.“Adversarial Autoencoders”, A.Makhzani= A (2016) 。 


练习 
1. 自 动 编码 器 的 主要 任务 是 什么 ? 


2. 假 如 想 训 练 一 个 分 类 紫 ， 而 且 有 大 量 未 训练 的 数据 ， 但 是 只 有 几 和 二 个 
已 经 标记 的 实例 。 目 动 编码 髓 可 以 如 何 帮 助 你 吗 ? 你 会 如 何 实现 ? 


3. 如 果 目 动 编 码 器 可 以 完美 地 重 现 输入 ， 它 就 古 一 个 好 的 上 自动 编码 姨 
吗 ? 如 何 评估 目 动 编码 絮 的 性 能 ? 


4. 什 么 是 不 完整 和 完整 目 动 编码 侨 ? 不 完整 目 动 编码 天 的 主要 风险 是 什 
A? 完整 的 又 是 什么 ? 


5. 如 何在 栈 式 目 动 编码 套 上 绑 定 权重 ? 为 什么 要 这 样 做 ? 
6. 翁 承 目 动 网 得 器 低层 学 习 可 视 化 符 征 罗 利 用 技术 征 什么 ?高层 驻 是 什 
A? 


7. 什 么 是 生成 模型 ? 你 能 列举 一 种 生成 自动 编码 器 吗 ? 

8. 使 用 去 踩 上 自动 编码 器 预 训练 图 像 分 类 需 : 

.可 以 使 用 最 简单 的 MNIST， 当 然 如 果 需 要 更 大 的 挑战 也 可 以 使 用 更 大 
的 图 像 集 ， 例 如 CIFAR10。 如 果 选 择 CIFAR10 (https:/go0.gl/VbsmxG 


) ， 需 要 自己 写 代码 来 加 载 图 像 进行 训练 。 如 果 想 忽略 这 一 部 分 ， 
TensorFlow 模 型 动物 园 包 含 了 实现 这 些 的 工具 (https://goo.gV3iENgb 
) o 


-将 数据 集 分 为 训练 集 和 测试 集 。 在 完整 训练 集 上 训练 一 个 深度 去 踩 目 
动 编码 器 。 

-检查 图 像 是 否 重建 完好 ， 并 可 视 化 低层 特征 。 可 视 化 编码 层 每 个 神经 
元 中 激活 度 最 高 的 图 像 。 


-构建 一 个 分 类 深度 神经 网 络 ， 复 用 目 动 编码 器 的 低层 。 仅 使 用 训练 集 
的 10% 的 数据 训练 它 。 你 可 以 使 得 它 和 使 用 整个 训练 集训 练 的 分 类 器 拥 
有 同样 的 性 能 吗 ? 


9.20084F Ruslan Salakhutdinov#llGeoffrey Hinton (https://g00.g/LXzFX6 
) RFE HANTS SCHL] (Semantic hashing) 是 一 项 用 于 高 效 信息 检索 的 
技术 : 文档 (GIG, Al) 通过 系统 ， 通 常 是 一 个 输出 低 维 二 进 制 和 
量 的 神经 网 络 (例如 ，30 位 ) 。 两 个 相似 的 文档 具有 相同 或 者 相似 的 
散 列 。 即 使 存在 数 十 亿 个 文档 ， 也 通过 使 用 散 列 索引 每 个 文档 : 只 需 
计算 该 文档 的 散 列 ， 然 后 查找 具有 相同 散 列 值 (或 者 只 有 一 两 位 不 
ee o ERA HEH — AER Boa at SETA SL 
EJI]: 


Ur — AR FESPA ARATRI, A Z YI 
练 中 用 到 的 图 像 集训 练 它 。 编 码 层 应 包含 30 个 神经 元 ， 并 使 用 逻辑 激 
活 函 数 使 得 输出 值 在 0 到 1 之 间 。 训 练 后 ， 为 了 产生 图 像 的 散 列 ， 可 以 
简单 地 通过 上 自动 编码 器 运行 它 ， 获 取 编 码 层 的 输出 ， 将 每 个 值 舍 入 到 
最 接近 的 整数 (0 或 1) ° 


.Salakhutdinov 和 Hinton 提 出 了 一 个 简单 的 技巧 : 仅 在 训练 期 间 ， 将 高 斯 
噪音 〈 零 均值 ) 加 到 编码 层 。 为 了 保持 较 大 的 信 噪 比 ， 目 动 编码 器 将 
学 习 将 比较 大 的 值 馈送 给 编码 层 〈 从 而 忽略 噪音 ) 。 相 反 ， 这 意味 着 
编码 层 逻 辑 芳 数 的 输出 值 将 可 能 在 0 或 者 1 处 饱和 。 所 以 ， 将 编码 值 舍 
入 为 0 或 1 不 会 使 它们 失真 太 多 ， 并 将 提高 散 列 的 可 靠 性 。 


计算 每 张 独 片 的 做 列 ， 并 查看 相同 散 列 的 独 像 是 否 相似 。 由 于 MNIST 
和 CIFAR10 古 被 标记 过 的 ， 所 以 更 客观 地 测量 语义 散 列 目 动 编码 右 性 能 
的 方法 是 确保 具有 相同 散 列 值 的 图 像 通 单 具体 相同 的 类 。 一 个 方法 是 
测量 具有 相同 (或 相似 ， 散 列 值 的 图 像 的 平均 基尼 纯度 〈 在 第 6 章 中 介 


Ait) 
- 笑 试 使 用 交叉 验证 来 微调 超 参数 。 


.请 注意 ， 另 一 种 进行 分 类 的 方法 是 : 用 已 标记 的 数据 集训 练 卷 积 神经 
网 络 ， 然 后 使 用 输出 层 下 面 的 层 产生 散 列 值 。 详 细 参 见 Jinma Gua 和 
Jinma Gua 2015 年 的 -发 表 的 论文 (https://goo.gVi9FTIn ) 。 看 看 效果 是 
否 更 好 。 


10. 用 之 前 练习 中 使 用 的 图 像 集 (MNIST 或 者 CIFAR10) 训练 一 个 变 分 
自动 编码 器 ， 并 使 它 生 产 图 像 。 或 者 ， 你 可 以 党 试 找 到 你 感 兴趣 的 未 
标记 结果 集 ， 看 看 能 不 能 生成 新 样本 。 


练习 的 解决 方案 详 见 附录 A 。 
[1] “Semantic Hashing”, R.Salakhutdinov 和 G.Hinton (2008) ° 


[2] “CNN Based Hashing for Image Retrieval”, J.Gua#lJ.Li (2015) ° 
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第 16 草 ” 蝇 化 学 习 


强化 学 习 (RL) 是 当今 机 器 学 习 领 域 最 激动 人 心 的 领域 之 一 ， 也 是 最 
古老 的 领域 之 一 。 自 20 世 纪 50 年 代 来 ， 它 产生 了 许多 有 趣 的 应 用 
尤其 是 在 游戏 领域 ， 例 如 ，TD-Gammon (一 个 西洋 双 陆 棋 游戏 程序 ) 
和 机 器 控制 领域 ， 但 是 很 少 成 为 头条 新 闻 。2013 年 发 生 了 一 场 革命 ， 
当时 英国 一 个 名 为 DeepMind 的 创业 公司 的 研究 人 员 展 示 了 一 个 系统 ， 
该 系统 可 以 从 头 开始 玩 Atari 公 司 的 任何 游戏 (https://go0.gl/hceDs5 ) 
2L 。 它 仅 使 用 原始 像素 作为 输入 ， 在 之 前 对 游戏 规则 ( 
https://goo.gVhgpvz7 ) 四 没有 任何 了 解 的 情况 下 就 可 以 胜 过 大 多 数 的 
人 人 类。 图 这 是 一 系列 惊人 壮举 的 开始 ，2016 年 3 月 AlphaGo 击 败 了 世界 
围棋 冠军 Lee Sedol ( 李 世 石 ) 。 没 有 一 个 程序 曾经 击败 过 专业 棋 手 ， 
更 别 说 是 世界 冠军 了 。 现 在 ， 整 个 RL 领域 都 为 名 种 广泛 的 应 用 和 新 想 
法 而 沸腾 。DeepMind 在 2014 年 被 谷歌 以 5 亿 多 美元 收购 。 


那么 他 们 是 怎么 做 到 这 些 的 呢 ? 事后 看 来 ， 似 乎 很 简单 :他 们 将 机 器 
学 习 应 用 于 强化 学 习 领 域 ， 而 且 其 效果 超 卑 想象。 本 章 首 移 会 解释 强 
化 学 习 及 其 优点 ， 然 后 会 介绍 深度 强化 学 习 领 域 的 两 个 重要 技术 : R 
略 梯度 和 深层 Q 网 络 (DQN) ， 包 括 关 于 马尔 可 夫 决 策 过 程 (MDP) 
的 讨论 。 我 们 将 使 用 这 些 技术 来 训练 一 个 模型 来 平衡 移动 的 车 上 的 
杆 ， 为 一 个 模型 用 来 玩 Atari 游 戏 。 相 同 的 技术 可 以 用 于 各 种 不 同 领 域 
AMES, Mae Tiler ABI BBA o 


[了 解 更 多 细节 ， 可 以 查看 Richard Sutton#ll Andrew Barto 的 天 于 RE 的 
$ < Reinforcement Learning : An Introduction ( MIT Press ) ) 

(https://goo.gl/7utZaz) ， 或 者 David Silver 在 伦敦 大 学 的 在 线 免费 REL 课 
程 (https://g00.g1/AWCMEW) 


[2] “Playing Atari with Deep Reinforcement Learning” , V.Mnih 等 人 
(2013) 


[3] “Human-level control through deep reinforcement learning”, V.Mnih< 


人 (2015) 。 


[4] 查看 DeepMind 系 统 学 习 玩 Space Invaders、Breakout 等 游戏 的 视频 ， 
请 查看 https://goo.gl/yTsH6X ° 


学 习 天 励 最 优化 


在 强化 学 习 中 ， 软 件 代 理 在 一 定 的 环境 中 观察 并 采取 行动 ， 作 为 回报 
获得 一 定 奖 励 。 其 目的 是 学 会 采取 行动 以 最 大 化 其 预期 的 长 期 回报 。 
如 果 使 用 拟人 的 手法 ， 你 可 以 将 正面 回报 视 为 愉悦 ， 将 负面 回报 视 为 
痛苦 【在 这 种 情况 下 , “回报 ”一 词 可 能 有 点 误导 ) 。 短 期 上 ， 代 理 在 
环境 中 运行 ， 通 过 试验 和 错误 学 习 最 大 化 愉悦 并 最 小 化 痛苦 。 


这 于 各 种 任务 中 的 广泛 设置 。 下 面 有 一 些 例子 OLA 
16-1) : 


图 16-1， 强 化 学 习 举例 ， (a) 步行 机 器 人 ， (b) 吃 豆 人 游戏 ， (0) 
围棋 选手 ， (d) TURE, (e) 自动 交易 员 N 


a. 代 理 可 以 是 控制 步行 机 器 人 的 程序 。 在 这 种 情况 下 ， 环 境 是 现实 世 
FA, KER Ras 〈 如 摄像 机 和 触摸 传 感 右 ) 来 观察 环境 ， 其 
行为 包括 发 送信 号 以 激活 发 动机 。 它 可 能 被 设计 为 当 接近 目的 地 时 获 
得 正面 回报 ， 当 浪费 时 间 、 走 错 地 方 ， 或 者 跌倒 时 获得 负面 回报 。 


b. 代 理 可 以 是 控制 吃 豆 人 游戏 的 程序 。 在 这 种 情况 下 ， 环 境 是 Atari 游 戏 
的 一 个 模拟 ， 行 为 古 操纵 杆 的 9 个 可 能 的 位 置 左上、 左下、 中间 ， 等 
等 ) ， 观 察 结 果 是 截图 ， 而 回报 仅 是 游戏 获得 的 点 数 。 


c. 相 似 地 ， 代 理 也 可 以 是 玩 诸如 围棋 等 棋 副 类 游戏 的 程序 。 


d. 代 理 不 必 控 制 一 个 真实 (或 虚拟 ) 东西 的 移动 。 例 如 ， 它 可 是 一 个 智 
能 的 恒 瘟 器 ， 当 接近 目标 瘟 度 并 广 省 能 量 时 获得 正面 回报 ， 当 需要 人 
类 调节 温度 时 获得 负面 回报 ， 所 以 代理 必须 学 会 预测 人 类 需求 。 


e. 代 理 可 以 观察 股票 价格 ， 并 决定 每 秒 习 入 或 者 卖 出 多 少 。 显 然 ， 回 报 
忠 古 金钱 的 收益 和 损失 。 


注意 ， 可 能 根本 就 没有 正面 回报 ， 例如， 代理 在 迷宫 中 移动 ， 在 每 一 
步 中 获得 仙 面 回报 ， 以 更 快 地 找到 出 口 ! 还 有 很 多 适合 使 用 强化 学 习 
的 例子 ， 例 如 目 动 各 驶 汽车 ， 在 网 页 上 放置 广告 ,或 者 控制 图 像 分 类 
系统 该 注意 的 地 方 。 


[1] 图片 (a) 、 (c) » (d) 转自 维基 百科 。 (a) 和 (da) 来 自 公 共 图 
片 。 (c) 是 Stevertigo 创造 的 ， 发 布 于 Commons BY-SA 2.0 
(https://creativecommons.org/licenses/bysa/2.0/) ° (b) 是 吃 豆 人 游戏 
的 截图 ， 版 权 属于 Atari 公 司 (作者 认为 它 在 本 章 是 合理 使 用 的 ) 
(e) 转载 目 Pixabay ， 发 布 于 Creative Commons CCO 
(https://creativecommons.org/publicdomain/zero/1.0/) 。 


策略 搜索 


决定 软件 代理 行为 的 算法 称 为 策略 。 例 如 ， 宽 略 可 以 古 一 个 观测 输入 
并 输出 其 所 采取 的 行动 的 神经 网 络 ( 见 图 16-2) 。 


代理 环境 


图 16-2: 使 用 神经 网 络 策略 的 强化 学 习 


集 略 可 以 是 你 能 想到 的 任何 算法 ， 它 甚至 不 必 是 确定 的 。 例 如 ， 考 虑 
一 个 机 器 人 吸 全 器 ， 其 获得 的 回报 是 30 分 钟 内 吸取 的 灰 竺 量 。 其 策略 
可 能 是 每 秒 以 概率 p 向 前 移动 ， 或 者 以 概率 1-p 随 机 向 左 或 同 右 转 。 旋 转 
角度 将 是 一 个 -r 到 +r 间 的 随机 角度 。 由 于 该 策略 涉及 一 些 随 机 性 ， 所 以 
称 之 为 随机 策略 。 机 器 人 将 有 一 个 不 稳定 的 轨迹 ， 这 样 保证 它 最 后 将 
到 达 任 何 可 以 到 达 的 地 方 并 吸 尽 所 有 灰 侍 。 问 题 是 ，30 分 钟 内 可 以 吸 
到 多 少 灰 尘 ? 


如 何 训练 这 样 的 机 器 人 呢 ? 只 有 两 个 参数 供 你 调整 : 概率 p 和 角度 范围 
r。 一 种 可 能 的 学 习 算法 是 芝 试 这 两 个 参数 的 各 种 不 同 的 值 ， 然 后 选择 
最 佳 组 合 ( 见 图 16-3) 。 这 是 一 个 使 用 了 暴力 方法 的 策略 搜索 例子 。 但 
是 ， 当 搜索 空间 太 大 (这 是 通常 情况 ) 时 ， 通 过 这 种 途径 找到 最 佳 组 
合 束 如 同 大 海 摇 针 。 


另 一 种 探索 策略 空间 的 方法 使 用 了 小 传 算 法 。 例 如 ， 可 以 随机 地 创造 
第 一 代 的 100 个 策略 ， 然 后 穷尽 它 ， 然 后 “ 杀 掉 *80 个 最 差 的 策略 ， 呈 并 
使 剩余 的 20 个 幸存 者 ”每 个 生成 4 个 后 代 。 后 代 只 是 其 父母 巴 加 上 一 些 
随机 变化 。 幸 存 的 策略 及 其 后 代 组 成 了 第 二 代 。 然 后 继续 使 用 上 述 广 
法 迭代 ， 直 到 发 现 一 个 好 的 策略 。 


策略 空间 AITA 


图 16-3: 策略 空间 中 的 四 点 和 代理 的 相应 行为 


还 有 一 种 方法 是 通过 对 策略 参数 的 回报 梯度 的 评估 使 用 优化 技术 ， 然 
后 根据 获得 较 高 回报 的 梯度 (梯度 上 升 ) 调整 这 些 参 数 。 这 种 方法 称 
为 策略 梯度 (PG) ， 在 本 章 的 后 文中 有 详细 讨论 。 回 到 之 前 机 器 人 吸 
全 右 的 例 于 ， 可 以 稍微 增 大 p 的 值 ， 然 后 评估 机 磊 人 在 30 分 钟 内 吸 到 的 
灰尘 量 有 没有 增加 ; 如 果 增 加 了 ， 束 再 增 大 p 的 值 ， 否 则 残 减 小 。 我 们 
将 使 用 TensorFlow 实 现 一 个 流行 的 PG 算法 ， 在 这 之 前 需要 创造 代理 的 
生存 环境 ， 所 以 是 时 候 介 绍 一 下 OpenAl gym J ° 


[1] .通常 会 给 那些 性 能 兰 的 策略 一 些 机 会 ， 以 保持 “基因 库 ? 的 多 样 性 。 


[2] 这 里 如 有 果 是 单 杀 ， 通 常 称 作 无 性 繁殖 。 有 两 个 (或 多 个 ) 父母 ， 通 
常 称 为 有 性 繁殖 。 后 代 的 基因 组 (在 本 书 中 是 指 一 组 策略 ) 由 其 父母 
的 基因 随机 组 成 。 


OpenAI gym 介 绍 


强化 学 习 的 挑战 之 一 是 为 了 训练 代理 ， 首 先 需 要 有 一 个 工作 环境 。 如 
果 想 通 过 编程 让 一 个 代理 学 习 如 何 玩 Atari 游 戏 ， 将 需要 该 游戏 的 一 个 
模拟 器 。 如 果 想 实现 一 个 走路 机 器 人 ， 那 么 环境 就 是 现实 世界 ， 可 以 


直接 在 该 环境 中 训练 机 器 人 ， 但 是 有 一 些 限 制 : WR La AEB 
崖 ， 不 能 仅仅 是 按 “ 回 退 ” 键 ， 更 不 能 加 速 ， 增 加 更 多 的 计算 能 力 并 不 
能 使 机 器 人 跑 得 更 快 。 通 常 来 说 ， 并 行 训练 1000 个 机 器 人 成 本 过 高 。 
简 而 言 之 ， 在 现实 世界 中 训练 很 困难 并 且 耗 时 ， 所 以 通常 需要 一 个 模 
拟 环境 来 引导 训练 。 


OpenAI gym (https://gym.openai.com/ ) [由 是 一 个 提供 各 种 模拟 环境 
(Atari 游 戏 ， 棋 盘 游 戏 ，2D 和 3D 的 环境 模拟 等 ) 的 工具 包 ， 因 此 可 以 
使 用 它 训 练 代理 ， 比 较 这 些 代理 ， 或 者 开发 新 的 RL 算法 。 


首先 ， 简 单 地 使 用 pip 命 令 安装 OpenAl gym: 


$ pip3 install --upgrade gym 


然后 打开 一 个 Python 脚本 或 者 Jupyter 笔 记 本 ， 来 创建 第 一 个 环境 : 


>>> import gym 

>>> env = gym.make("CartPole-v0") 

[2016-10-14 16:03:23,199] Making new env: MsPacman-v0 
>>> obs = env.reset() 

>>> obs 

array([-0.03799846, -0.03288115, 0.02337094, 0.00720711] ) 


>>> env.render() 


make O 函数 用 来 创建 环境 ， 本 例 中 是 一 个 CartPole 环 境 。 这 是 一 个 
2D 模 拟 副 ， 它 可 以 通过 向 左 或 者 向 右 加 速 小 推 车 ， 来 平衡 放置 于 其 顶 
端的 一 个 杆 ( 见 图 16-4) 。 环 境 创 建 之 后 ， 需 要 使 用 reset () 方法 来 初 
台 化 。 这 将 返回 第 一 个 观察 报告 。 观 察 报告 依赖 于 环境 类 型 。 对 于 


CartPole 环 境 ， 每 个 观察 报告 是 一 个 包含 四 个 序 点 数 的 一 维 NumPy 数 
组 。 这 些 浮 点 数 代 表 了 人 小 推 车 的 水 平 位 置 《0.0 是 中 心 ) 、 速 度 、 杆 的 
角度 〈0.0 是 垂直 角度 ) 和 和 角速度。 最 后 ，render () 方法 展示 了 如 图 
16-4 所 示 的 环境 。 


图 16-4: CartPole 环 境 


如 果 想 要 render () 以 NumpPy 数 组 的 形式 返回 泻 染 的 图 像 ， 可 以 设置 
mode 参 数 为 rgb_array (注意 ， 不 同 环境 可 能 支持 不 同 的 模式 ) : 


>>> img = env.render(mode="rgb_array") 


>>> img.shape # height, width, channels (3=RGB) 


(400, 600, 3) 


遗憾 的 是 ， 即 使 设置 mode 的 值 为 rgb_array，CartPole (和 其 他 一 些 
环境 ) 也 会 将 图 像 泻 染 到 屏幕 上 。 唯 一 避免 这 种 情况 的 方法 是 使 用 一 
个 假 X 服 务 器 ， 如 Xvfb 或 者 Xdummy。 例 如 ， 安 装 Xvfb， 并 使 用 如 下 命 
令 启 动 Python: xvfb-run-s"-screen 01400x900x24"python， 或 者 使 用 
xvfbwrapper 包 (https:Wgoo.gUwR1loJL) ° 


让 我 们 癌 问 环 境 什么 行动 是 可 能 的 : 


>>> env.action_space 


Discrete(2) 


Discrete (2) 表示 可 能 的 行动 是 整数 0 和 1， 分 别 代表 着 向 左 (0) 和 向 
右 (1) 加 速 。 其 他 环境 可 能 有 更 多 的 离散 行为 ， 或 者 其 他 类 型 的 行为 
E E E E 
行驶 : 


>>> action = 1 # accelerate right 

>>> obs, reward, done, info = env.step(action) 

>>> obs 

array([-0.03865608, 0.16189797, 0.02351508, -0.27801135]) 
>>> reward 

1.0 

>>> done 

False 

>>> info 


{} 


step () 方法 执行 给 定 的 行动 ， 并 返回 四 个 值 : 


obs 


这 是 一 个 新 的 观测 结果 。 人 小 推 车 现在 正 向 右 行驶 (obs[1]>0) 。 杆 仍然 
向 右倾 斜 (obs[2]>0) ， 但 是 它 的 角速度 是 负数 (obs[3]<0) ， 所 以 下 
一 步 之 后 它 可 能 同 左 倾 料 。 


reward 


在 该 环境 ， 无 论 你 做 什么 ， 每 一 步 你 都 会 获得 1.0 的 回报 ， 所 以 目标 是 
尽 可 能 运行 更 长 的 时 间 © 


done 


实验 结束 之 后 ， 该 值 将 被 设置 为 True。 当 杆 倾斜 过 多 时 ， 这 种 情况 就 会 
发 生 。 在 此 之 后 ， 环 境 必 须 重 置 之 后 才能 使 用 。 


info 


该 字段 可 能 会 在 其 他 环境 提供 额外 的 调试 信息 。 这 些 数据 不 应 该 用 于 
训练 〈 它 将 是 欺诈 ) 。 


我 们 来 硬 编码 一 个 人 简单 的 策略 ， 当 杆 同 左倾 斜 时 加 速 向 左 ， 当 杆 疝 右 
倾斜 时 加 速 问 右 。 执 行 该 策略 ， 以 获得 超过 500 个 片段 的 平均 回报 : 
def basic_policy(obs): 
angle = obs[2] 


return 0 if angle < 0 else 1 


totals = [] 
for episode in range(500): 
episode_rewards = 0 


obs = env.reset() 


for step in range(1000): # 1000 steps max, we don't want to run forever 


action = basic_policy(obs) 


obs, reward, done, info = env.step(action) 


episode_rewards += reward 


if done: 


break 


totals.append(episode_rewards) 


这 段 代 码 很 容易 理解 ， 直 接 看 看 结 


>>> import numpy as np 
>>> np.mean(totals), np.std(totals), np.min(totals), np.max(totals) 


(42.125999999999998, 9.1237121830974033, 24.0, 68.0) 


即使 经 过 500 次 尝试 ， 该 策略 也 无 法 保证 杆 在 超过 68 个 连续 步骤 里 保持 

直立 。 结 果 不 理想 。 如 果 观 察 Jupyter 笔 记 本 中 的 模拟 器 ( 

https://github.com/ageron/handson-ml) ， 可 以 看 到 车 子 越 来 越 严重 地 左 

人 直到 杆 倾 糙 太 多 。 下 面 看 看 神经 网 络 是 否 能 提出 一 个 更 好 的 
WE o 


[1].OpenAI 是 一 个 非 盈 利 性 质 的 人 工 智 能 研究 公司 ， 由 Elon Musk 部 分 
资助 。 其 目标 是 促进 和 发 展 有 利于 人 类 的 AI (而 不 是 消 火 它 ) 。 


神经 网 络 策 略 


首先 创建 一 个 神经 网 络 策 略 。 与 之 前 便 编 码 的 策略 一 样 ， 神 经 网 络 将 
观察 作为 输入 ， 并 输出 要 执行 的 行为 。 更 准确 地 说 ， 它 将 估计 每 个 行 
为 的 可 能 性 ， 然 后 根据 估计 的 可 能 性 随机 选取 一 种 行为 ( 见 图 16-5) ° 
在 CartPole 环 境 中 ， 有 两 个 可 能 的 行为 ( 左 或 者 右 ) ， 所 以 只 需要 一 个 
输出 神经 元 。 它 将 输出 行为 0 (AL) 的 概率 p， 当 然 行 为 1 ( 右 ) 的 概率 
是 1-p。 例 如 ， 如 果 输 出 0.7， 那 么 我 们 将 以 70% 的 可 能 性 采用 行为 0， 
以 30% 的 可 能 性 采用 行为 1。 


多 项 采样 


行为 0 的 概率 ( 左 ) 


DA 

AA 
D 

PPR 


QS 


图 16-5: 神经 网 络 策略 


你 可 能 疑惑 ， 为 什么 神经 网 络 根据 输出 的 概率 来 随机 选择 一 个 行为 ， 
而 不 是 直接 选取 得 分 最 高 的 行为 。 这 种 方法 使 得 代理 找到 探索 新 行动 
和 已 经 能 够 正音 运行 的 行为 之 间 的 平衡 。 比 如 ， 假 设 你 第 一 次 去 一 家 
餐厅 ， 所 有 的 沫 看 起 来 同样 地 吸引 人 ， 所 以 你 随机 选择 一 个 。 如 果 事 
实证 明 比 较 好 吃 ， 下 次 你 就 会 增加 选择 它 的 概率 ， 但 是 概率 不 能 增加 
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择 的 那个 更 好 。 


需要 注意 的 是 ， 在 特定 的 环境 中 ， 过 去 的 行为 和 观察 可 以 被 安全 
an 因为 每 个 观察 都 包含 了 环境 的 全 部 状态 。 RE BERN 
态 ， 那 么 就 需要 考虑 过 去 的 行为 和 观察 。 例 如 ， 如 果 环 境 只 显示 车 的 
交 其 速度 ， 那 么 为 了 估计 当前 速度 ， 你 不 仅 需 要 考虑 当前 
需要 考虑 前 一 个 观察 。 另 一 个 例子 是 当 观 察 存在 噪音 时 ， 你 通 
KE ee 过 去 的 多 个 观察 结 采 来 估计 当前 可 能 的 状态 。CartPole 问 题 
就 征 最 简单 的 情况 ， 观 察 结 果 无 噪音 且 包含 环境 的 全 部 状态 。 


下 面 是 使 用 TensorFlow 构 建 神经 网 络 策略 的 代码 : 


import tensorflow as tf 


from tensorflow.contrib.layers import fully_connected 


# 1. Specify the neural network architecture 


n_inputs = 4 # == env.observation_space.shape[0] 


n_hidden = 4 # it's a simple task, we don't need more hidden neurons 


n_outputs = 1 # only outputs the probability of accelerating left 


initializer = tf.contrib.layers.variance_scaling_initializer() 


# 2. Build the neural network 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


hidden = fully_connected(X, n_hidden, activation_fn=tf.nn.elu, 


weights_initializer=initializer) 
logits = fully_connected(hidden, n_outputs, activation_fn=None, 
weights_initializer=initializer) 


outputs = tf.nn.sigmoid(logits) 


# 3. Select a random action based on the estimated probabilities 
p_left_and_right = tf.concat(axis=1, values=[outputs, 1 - outputs]) 


action = tf.multinomial(tf.log(p_left_and_right), num_samples=1) 


init = tf.global_variables_initializer() 


我 们 来 看 看 这 段 代码 : 


1. 导 入 之 后 ， 定 义 了 神经 网 络 的 架构 。 输 入 的 数量 站 观察 至 间 的 大 小 
(在 CartPole 例 子 中 ， 输 入 数量 为 4) ， 我 们 只 有 4 个 隐藏 单位 ， 并 输出 
一 个 概率 〈 向 左 的 概率 ) 。 


2. 接 下来， 构建 神经 网 络 。 在 该 例子 中 ， 它 是 一 个 只 有 一 个 输出 的 香草 
多 层 感 知 器 。 注 意 ， 为 了 输出 一 个 从 0.0 到 1.0 的 概率 ， 输 出 层 使 用 逻辑 
(SE) 激活 函数 。 如 果 有 两 个 以 上 可 能 的 行为 ， 那 么 每 个 行为 将 是 一 
个 输出 神经 元 ， 而 且 将 使 用 softmax 激 活 画 数 。 


3. 最 后 ， 调 用 multinomial () 函数 选择 一 个 随机 行为 。 给 定 每 个 整数 的 
对 数 概率 ， 该 函数 独立 地 对 一 个 或 多 个 整数 进行 采样 。 例 如 ， 使 用 数 
组 [np.log (0.5) , np.log (0.2) , np.log (0.3) ] 和 num_samples=5 调 用 
它 ， 那 么 它 将 输出 5 个 整数 ， 每 个 整数 值 为 0 的 概率 是 50%， 为 1 的 概率 
是 20%， 为 2 的 概率 是 30%。 在 该 例子 中 ， 仅 需要 和 输出 一 个 整数 表示 采 
取 的 行为 。 因 为 outputs 张 量 仅 包 含 向 左 的 概率 ， 所 以 必须 首先 将 1- 


outputs 连 接 到 输出 中 ， 以 便 输出 一 个 同时 包含 向 左 和 向 右 概 率 的 张 
量 。 例 如 ， 如 条 有 两 个 以 上 可 能 的 行为 ， 神 经 网 络 必须 每 个 行为 输出 
一 个 概率 ， 这 样 束 不 需要 上 面 的 连接 步 又 。 


现在 我 们 有 了 一 个 将 进行 观察 并 输出 行为 的 神经 网 络 策略 。 但 十 怎么 
训练 它 呢 ? 


评估 行为 ， 信 用 分 配 问题 


如 东 知 道 每 一 步 的 最 佳 行 为 是 什么 ， 我 们 束 可 以 和 以 前 一 样 通过 最 小 
化 估计 的 概率 和 目标 概率 之 间 的 交叉 炉 来 训练 神经 网 络 。 这 是 第 规 的 
监督 学 习 。 然 而 ， 在 强化 学 习 中 代理 获得 指导 的 唯一 方法 古 通 过 回 
报 ， 而 回报 通常 是 稀 琉 和 延迟 的 。 例 如 ， 如 果 代 理 使 得 杆 保持 平衡 了 
100 步 ， 那 么 怎么 知道 这 100 步 中 哪 一 个 行为 是 比较 好 的 ， 哪 一 个 比较 
于 呢 ?我们 知道 的 只 十 杆 在 最 后 一 个 位 置 后 挥 落 了 ， 但 是 全 部 责任 肯 
定 不 是 最 后 一 步 。 这 称 为 信用 分 配 问 题 ， 当 代理 获得 回报 时 ， 很 难 知 
道 哪些 行为 对 该 结果 有 正面 或 者 负面 影响 。 可 以 想象 一 只 小 狗 表 现 好 
的 几 个 小 时 后 获得 了 奖励 ; 它 会 明日 它 为 什么 获得 奖励 吗 ? 


为 了 解决 这 个 问题 ， 一 个 常用 的 策略 是 根据 获得 回报 的 总 和 来 评估 一 
个 行为 ， 通 常 在 每 步 之 后 乘 以 折扣 率 r。 例 如 〈 见 图 16-6) ， 如 果 代 理 
决定 在 一 行 中 连续 向 右 三 次 ， 并 在 第 一 步 之 后 获得 回报 +10， 第 二 步 之 
后 获得 9， 最 后 一 步 之 后 回报 变 为 -50， 那 么 假设 折扣 率 r=0.8， 第 一 个 

位 置 的 总 得 分 是 10+rx0+r x (-20) =-22。 如 果 折 扣 率 趋 近 于 0， 与 即时 
回报 相 比 ， 未 来 的 回报 不 会 太 多 。 相 反 ， 如 果 折 扣 率 趋 近 于 1， 那 么 未 
来 的 回报 将 远 远 高 于 即时 回报 。 典 型 折扣 率 为 0.95 或 0.99。 当 折扣 率 为 
0.95 时 ，13 步 的 未 来 回报 大 概 是 即时 回报 的 一 半 (因为 0.95 130.5), 

当 折 扣 率 为 0.99 时 ，69 步 的 未 来 回报 将 是 即时 回报 的 一 半 。 在 CartPole 
环境 中 ， 行 动 具有 短期 时 效 性 ， 所 以 选择 折扣 率 等 于 0.95 比 较 合理 。 


当然 ， 一 个 好 的 行为 可 能 在 很 多 不 好 的 行为 之 后 ， 使 得 杆 快 速 倒 挥 ， 
结果 导致 好 的 行为 得 到 低 分 (类 似 地 ， 好 演员 有 了 时 也 会 在 差 电影 中 饰 
演 角色 ) 。 然 而 ， 如 采 试 验 次 数 足够 多 ， 好 行为 的 平均 得 分 会 高 于 坏 
行为 。 所 以 ， 为 了 得 到 比较 可 徘 的 行为 得 分 ， 我 们 必须 运行 很 多 过 ， 
并 将 所 有 行为 得 分 进行 归 一 化 处 理 (通过 减 去 平均 值 并 除 以 标准 偏 
ve) 。 在 此 之 后 ， 就 可 以 合理 地 预测 ， 得 分 高 的 行为 是 好 行为 ， 得 分 
低 的 是 不 好 的 行为 。 我 们 已 经 有 了 评估 每 一 个 行为 的 方法 ， 现 在 准备 
使 用 策略 梯度 来 训练 第 一 个 代理 。 下 面 看 看 结果 怎样 。 
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图 16-6: 折扣 回报 
策略 梯度 


正如 前 面 讨论 的 ，PG 算 法 通过 在 梯度 后 面 跟随 更 高 的 回报 来 优化 策略 
参数 。1992 年 Ronald Williams 提 出 了 一 种 流行 的 PG 算 法 ， 忆 - 称 为 强化 
算法 (REINFORCE algorithm) 。 这 是 一 个 常见 变种 : 


1. 首 完 ， 让 神经 网 络 策略 多 次 玩 游 戏 ， 然 后 计算 每 一 步 更 有 可 能 被 选择 
的 行为 的 梯度 ， 但 是 并 不 实施 这 些 梯度 。 

2. 运 行 几 裔 之 后 ， 计 算 每 个 行为 的 得 分 〈 使 用 上 面 描述 的 方法 ) 。 

3. 如 果 一 个 行为 的 得 分 是 正 数 ， 意 味 着 该 行为 是 好 的 ， 你 希望 使 用 之 前 
计算 的 这 些 梯度 ， 使 得 该 行为 在 未 来 更 有 可 能 锌 选择。 然而， 如 末 得 
分 是 负数 ， 意 味 着 该 行为 不 好 ， 你 硕 望 应 用 相反 的 梯度 ， 使 得 该 行为 
ee 
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最 后 ， 计 算得 到 的 所 有 梯度 向 量 的 平均 值 ， 并 使 用 它 来 执行 梯度 下 降 


下 面 使 用 TensorFlow 实 现 该 算法 。 我 们 将 训练 之 前 构建 的 神经 网 络 策 
略 ， 让 其 学 习 让 杆 在 小 车 上 保持 平衡 。 我 们 从 完成 之 前 添加 目标 概 

率 、 成 本 函数 和 训练 操作 的 代码 开 始 。 因 为 我 们 的 工作 类 似 于 选择 最 
好 的 行为 ， 所 以 如 果 选 择 了 行为 0 ( 左 ;” ， 目 标 概率 就 是 1.0， 如 果 选 择 
了 行为 1 (A) 目标 概率 就 是 0.0: 


y= 1. - tf.to_float(action) 


现在 有 了 目标 概率 ， 可 以 定义 成 本 函数 ILR 并 计算 梯度 : 


learning_rate = 0.01 


cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits( 
labels=y, logits=logits) 
optimizer = tf.train.AdamOptimizer(learning_rate) 
grads_and_vars = optimizer.compute_gradients(cross_entropy) 
注意 ， 调 用 优化 器 的 compute_gradients () 方法 ， 而 不 是 minimize () 
方法 。 因 为 我 们 希望 在 应 用 之 前 调整 梯度 。[ 人 compute_gradients () 返 


回 梯度 向 量 /变量 对 列表 (每 个 可 训练 变量 一 对 ) 。 将 所 有 梯度 放 在 一 
个 列表 中 ， 以 便 获 取 其 值 : 


gradients = [grad for grad, variable in grads_and_vars] 


INE ERR AEB oF e EHTNE, FARSI RE, TERETE 
这 些 梯度 向 量 并 存储 其 值 。 执 行 多 次 之 后 ， 如 前 所 述 ， 它 将 调整 这 些 
梯度 ( 即 ， 乘 以 行为 得 分 并 归 一 化 ) 并 计算 调整 过 的 梯度 的 平均 值 。 


接 下 来 ， 它 需要 将 生成 的 梯度 反馈 给 优化 器 ， 以 便 执 行 优化 。 这 意味 
着 每 个 梯度 回 量 需要 一 个 占 位 符 。 此 外 ， 必须 创建 搜 和 本 更 新 梯度 的 操 
作 。 为 此 ， 将 调用 优化 器 的 apply_gradients () 函数 ， 该 函数 采用 梯度 
全 。 我 们 传 给 函数 更 新 过 的 梯度 列表 ， 而 不 是 原始 梯度 问 
= ( 即 ， 通 过 梯度 占 位 符 馈 送 的 梯度 ) : 


gradient_placeholders = [] 

grads_and_vars_feed = [] 

for grad, variable in grads_and_vars: 
gradient_placeholder = tf.placeholder(tf.float32, shape=grad.get_shape() ) 
gradient_placeholders.append(gradient_placeholder ) 


grads_and_vars_feed.append((gradient_placeholder, variable) ) 


training_op = optimizer.apply_gradients(grads_and_vars_feed) 


回顾 一 下 整个 构建 阶段 : 


n_inputs = 4 
n_hidden = 4 
n_outputs = 1 


initializer = tf.contrib.layers.variance_scaling_initializer() 


learning_rate = 0.01 


X = tf.placeholder(tf.float32, shape=[None, n_inputs]) 


hidden = fully_connected(X, n_hidden, activation_fn=tf.nn.elu, 


weights_initializer=initializer) 


logits = fully_connected(hidden, n_outputs, activation_fn=None, 


weights_initializer=initializer) 


outputs = tf.nn.sigmoid(logits) 


p_left_and_right = tf.concat(axis=1, values=[outputs, 1 - outputs]) 


action = tf.multinomial(tf.log(p_left_and_right), num_samples=1) 


y=1. - tf.to_float(action) 


cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits( 


labels=y, logits=logits) 


optimizer = tf.train.AdamOptimizer(learning_rate) 


grads_and_vars = optimizer.compute_gradients(cross_ entropy) 


gradients = [grad for grad, variable in grads_and_vars] 


gradient_placeholders = [] 


grads_and_vars_feed = [] 


for grad, variable in grads_and_vars: 
gradient_placeholder = tf.placeholder(tf.float32, shape=grad.get_shape() ) 
gradient_placeholders.append(gradient_placeholder ) 
grads_and_vars_feed.append((gradient_placeholder, variable) ) 


training_op = optimizer.apply_gradients(grads_and_vars_feed) 


init = tf.global_variables_initializer() 


saver = tf.train.Saver() 


下 面 是 执行 阶段 ! 我 们 需要 一 系列 函数 来 计算 总 折扣 回报 ， 给 出 原始 
回报 ， 并 根据 多 次 实验 对 结果 进行 归 一 化 : 


def discount_rewards(rewards, discount_rate): 


discounted_rewards np.empty(len(rewards) ) 


ll 
© 


cumulative_rewards 


for step in reversed(range(len(rewards) )): 


cumulative_rewards = rewards[step] + cumulative_rewards * discount_rate 


discounted_rewards[step] = cumulative_rewards 


return discounted_rewards 


def discount_and_normalize_rewards(all_rewards, discount_rate): 


all_discounted_rewards = [discount_rewards(rewards) 


for rewards in all_rewards] 


flat_rewards = np.concatenate(all_discounted_rewards) 


reward_mean = flat_rewards.mean() 


reward_std = flat_rewards.std() 


return [(discounted_rewards - reward_mean)/reward_std 


for discounted_rewards in all_discounted_rewards] 


我 们 来 检查 一 下 代理 是 否 可 以 正常 运行 : 


>>> discount_rewards([10, 0, -50], discount_rate=0.8) 

array([-22., -40., -50.]) 

>>> discount_and_normalize_rewards([[10, 0, -50], [10, 20]], discount_rate=0.8) 

[array([-0.28435071, -0.86597718, -1.18910299]), 

array([ 1.26665318, 1.0727777 ])] 
调用 discount_rewards () 返回 了 期 望 结 果 〈 见 图 16-6) 。 可 以 验证 
discount_and_normalize_rewards () 函数 确实 返回 了 两 次 实验 中 每 个 行 
为 的 归 一 化 分 数 。 注 意 ， 第 一 次 实验 的 结 采 广 重 差 于 第 二 次 ， 所 以 它 
的 归 一 化 分 数 均 为 负数 ， 第 一 次 实验 的 所 有 行为 都 被 认为 是 不 好 的 ， 
相反 第 二 次 的 所 有 行为 都 被 认 为 是 好 的 。 
现在 ,我 们 有 了 所 有 需要 训练 的 策略 : 


n_iterations = 250 # number of training iterations 


n_max_steps = 1000 # max steps per episode 


n_games_per_update = 10 # train the policy every 10 episodes 


save_iterations = 10 # save the model every 10 training iterations 


discount_rate = 0.95 


with tf.Session() as sess: 


init.run() 


for iteration in range(n_iterations): 


all_rewards = [] # all sequences of raw rewards for each episode 


all_gradients = [] # gradients saved at each step of each episode 


for game in range(n_games_per_update): 


current_rewards = [] # all raw rewards from the current episode 


current_gradients = [] # all gradients from the current episode 


obs = env.reset() 


for step in range(n_max_steps): 


action_val, gradients_val = sess.run( 


[action, gradients], 


feed_dict={X: obs.reshape(1, n_inputs)}) # one obs 


obs, reward, done, info = env.step(action_val[0][0]) 


current_rewards.append( reward) 


current_gradients.append(gradients_val) 


if done: 


break 


all_rewards.append(current_rewards) 


all_gradients.append(current_gradients) 


# At this point we have run the policy for 10 episodes, and we are 


# ready for a policy update using the algorithm described earlier. 


all_rewards = discount_and_normalize_rewards(all_rewards) 


feed_dict = {} 


for var_index, grad_placeholder in enumerate(gradient_placeholders): 


# multiply the gradients by the action scores, and compute the mean 


mean_gradients = np.mean( 


[reward * all_gradients[game_index][step][var_index] 


for game_index, rewards in enumerate(all_rewards) 


for step, reward in enumerate(rewards)], 


axis=0) 


feed_dict[g rad_placeholder] = mean_gradients 


sess.run(training_op, feed_dict=feed_dict) 


if iteration % save_iterations == 0: 


saver.save(sess, "./my_policy_net_pg.ckpt") 


每 个 训练 迭代 开始 于 运行 策略 10 次 (为 了 避免 无 休止 地 运行 ， 每 次 最 
多 运行 1000 步 ) 。 每 一 步 中 ， 还 计算 梯度 ， 并 假设 每 一 步 选择 的 行为 
是 最 好 的 。 运 行 10 次 之 后 ， 使 用 discount_and_normalize_rewards () EK 
数 计算 行为 得 分 ， 明 历 每 个 可 训练 变量 、 每 次 训练 和 所 有 步骤 ， 用 每 
个 梯度 辐 量 乘 以 其 相应 的 行为 得 分 ， 计 算 结果 梯度 的 平均 值 。 最 终 ， 
运行 训练 操作 ， 传 给 它 我 们 计算 的 每 个 可 训练 变量 的 平均 梯度 。 同 
样 ， 每 10 次 训练 操作 保存 一 次 模型 。 


大 功 告 成 了 ! 代码 将 训练 神经 网 络 生 略 ， 写 会 成 功 学 习 杆 在 小 车 上 保 
持平 衡 (可 以 在 Jupyter 笔 记 本 中 尝试 一 下 ) 。 注 意 ， 实 际 上 有 两 种 方 
式 会 输 挥 游戏 ， 杆 倾斜 过 多 ， 或 者 车 完全 驶 出 屏幕 。 经 过 250 次 训练 过 
代 ， 它 将 成 功 学 习 平 衡 小 车 上 的 杆 ， 但 是 在 避免 小 车 驶 出 屏幕 的 问题 
上 做 得 还 是 不 尽 如 人 意 。 再 经 过 几 百 次 的 训练 氨 代 将 解决 这 个 问题 。 


全 研 究 人 员 尝试 找到 算法 ， 使 得 代理 即使 对 环境 一 无 所 知 也 会 正常 运 
行 。 然 而 ， 除 非 在 写 论 文 ， 否 则 应 该 尽 可 能 多 地 灌输 给 代理 主要 信 
轧 ， 因 为 这 将 加 速 训练 。 例 如 ， 可 以 汪 、 加 与 屏幕 中 心 到 杆 的 角度 的 距 
离 成 正比 的 负面 反 惯 。 此 外 ， 如 采 已 经 有 了 一 个 相当 不 错 的 策略 ( 例 
如 ， 硬 编码 ) ， 在 使 用 策略 梯度 提高 该 方法 之 前 ， 可 能 希望 训练 神经 
网 络 来 模拟 它 。 


尽管 相对 人 简单， 但 是 该 算法 十 分 强大 。 可 以 使 用 该 算法 解决 比 乎 衡 小 
车 上 的 杆 更 复杂 的 问题 。 实 际 上 ，AlphaGo 就 基于 类 似 的 PG 算 法 (加 
上 蒙特 卡 罗 树 搜索 ， 这 超出 了 本 书 的 范围 ) 。 


下 面 来 看 看 另外 一 个 流行 的 算法 系列 。PG 算 法 直接 党 试 优化 策略 以 增 
加 回报 ， 我 们 现在 要 看 的 算法 不 太 直 接 : 代理 学 习 评 估 每 个 状态 的 未 
来 回报 预期 总 和 ， 或 者 每 个 状态 的 每 个 行为 的 未 来 回报 预期 总 和 ， 然 
后 利用 该 信息 决定 采取 的 行为 。 为 了 理解 这 些 算法 ， 先 来 介绍 一 下 马 
尔 可 夫 决 策 过 程 (MDP) 。 


[1]_“Simple Statistical Gradient-Following Algorithms for Connectionist 
Reinforcement Learning”, R.Williams (1992) ° 


[2]. 当 我 们 讨论 梯度 裁 前 时， 在 第 11 章 中 ， 我 们 已 经 做 了 一 些 类 似 的 事 
E: 我 们 首先 计算 梯度 ， 然 后 裁剪 它们 ， 最 后 应 用 裁 草 过 的 梯度 。 
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20 世 纪 早 期 ， 数 学 家 安 德 烈 :马尔 可 夫 (Andrey Markov) 研究 了 无 记忆 
的 随机 过 程 ， 称 为 马尔 可 夫 链 。 这 种 过 程 具 有 固定 的 状态 数 ， 并 且 在 
每 一 步 中 随机 地 从 一 个 过 程 转换 为 另 一 个 过 程 。 从 状态 s 转 换 为 状态 
s' 的 概率 是 固定 的 ， 且 只 依赖 于 状态 对 (s，s') ， 与 过 去 的 状态 无 关 
(系统 没有 记忆 ) -° 
图 16-7 展 示 了 一 个 具有 四 个 状态 的 马尔 可 夫 链 的 例子 。 假 设 过 程 从 状态 
so 开始 ， 而 且 下 一 步 有 70% 的 可 能 性 保持 在 当前 状态 。 最 终 它 肯 定 会 
离开 这 个 状态 ， 并 且 永 远 不 会 回 到 s 0。。 如 果 它 到 达 状 态 s 1 ， 它 将 极 有 
可 能 进入 状态 s ，(90% 的 概率 ) ， 然 后 立刻 回 到 状态 s (100% 的 概 
K) 。 它 可 能 会 在 这 两 个 状态 之 间 来 回 交 替 ， 但 是 最 终 会 落 入 状态 s 3 
， 并 永远 保持 在 这 里 (这 是 最 终 状 态 ) 。 马 尔 可 夫 链 可 以 有 非常 不 同 
的 动力 学 ， 并 广泛 用 于 热力 学 、 化 学 、 统 计 学 等 。 


图 16-7: 马尔 可 夫 链 举例 


20 世 纪 50 年 代 ， 马 尔 科 夫 决策 过 程 首先 被 理 查 德 :贝尔 曼 提出 ( 
https://g00.g/wZTVIN.) ° 出 它 类 似 于 马尔 可 夫 链 ， 但 有 一 些 不 同 : 在 
每 一 步 中 ， 代 理 可 以 在 几 种 可 能 的 行为 中 选择 一 个 ， 转 换 概率 依赖 于 
所 选择 的 行为 。 此 外 ， 一 些 状态 转换 返回 一 些 回报 ( 正 数 或 者 负 

数 ) ， 代 理 的 目标 是 找到 一 个 随 着 时 间 推 移 ， 获 得 最 大 回报 的 策略 。 


例如 ， 图 16-8 所 示 的 MDP 有 三 种 状态 且 在 每 一 步 有 三 种 可 能 的 离散 行 
为 。 如 打从 状态 so 开始 ， 代 理 可 以 在 行为 ao、 ay 、az 中 间 选 择 一 个 。 
如 条 选择 行为 ai ， 它 束 肯 定 保持 在 状态 so。， 并 且 不 获得 任何 回报 。 因 
此 ， 如 果 愿 意 ， 它 可 以 永远 保持 在 该 状态 。 但 是 如 果 选 择 行为 a0， 它 
有 70% 的 概率 获得 +10 的 回报 ， 并 保持 在 状态 so。。 然 后 可 以 一 次 又 一 次 
地 竹 试 ， 并 获得 尽 可 能 多 的 回报 。 但 是 在 某 时 ， 它 会 结束 s 0 状态 进入 s 
1 状态 。 在 s 1 状态 下 ， 它 有 两 种 可 能 的 行为 ao 或 者 a1。 它 可 以 通过 
重复 地 选择 行为 al 而 保持 在 该 状态 ,或 者 移动 到 状态 s ,并 获得 -50 的 回 
报 。 在 状态 s ，。， 它 别 无 选择 地 选择 行为 a | ， 该 行为 有 很 大 可 能 导致 该 
过 程 回 到 so 状态， 并 获得 +40 的 回报 。 观 绎 图 片 中 的 MDP， 你 能 猜 到 随 
着 时 间 的 推移 哪 种 策略 可 以 获得 最 大 回报 吗 ? 在 状态 so ， 很 明显 行为 a 


0 是 最 好 的 选择 ， 在 状态 s， 别 无 选择 地 选择 行为 ai ， 但 是 在 状态 s; ， 到 
底 是 选择 保持 (ag) 还 是 通过 火焰 az) ， 结 果 不 明 显 。 


图 16-8: 马尔 可 夫 决 策 过 程 举例 


贝尔 曼 发 现 了 一 种 方法 来 评估 任何 状态 s 的 最 优 状 态 值 ， 标 记 为 V* 
(s) ， 到 达 状 态 s 之 后 ， 假 设 行为 是 最 优 的 ，V* (s) 是 代理 平均 折扣 
后 所 有 未 来 回报 的 总 和 。 如果 代 理 行 为 最 优 ， 贝 尔 曼 最 优 方程 式 就 适 
用 〈 见 公式 16-1) 。 这 个 递归 方程 式 表 明 ， 如 果 代 理 的 行为 最 优 ， 那 么 
当前 状态 的 最 优 值 等 于 采取 一 个 最 优 行 为 后 获得 的 平均 回报 ， 加 上 该 
行为 可 以 导致 的 所 有 可 能 的 下 一 个 状态 的 期 望 最 优 值 。 


公式 16-1: 贝尔 曼 最 优 方程 式 
V (3) = max, )T(s,a,s')[R(s,a,s') +y. V (s)| forall s 


T (s, a, s') 是 假设 代理 选择 行为 a， 从 状态 s 到 状态 s 的 转换 概率 。 
R (s, a, s) 是 假设 代理 选择 行为 a8， 从 状态 s 到 状态 s' 获 得 的 回报 。 


Y 征 折扣 率 。 

该 方程 式 可 以 直接 推导 出 一 个 算法 ， 可 以 准确 佑 计 每 个 可 能 状态 的 最 
优 状态 值 ， 百 先 将 所 有 估计 的 状态 值 初始 化 为 零 ， 然 后 使 用 值 迭 代 算 
法 迭代 地 更 新 它们 ( 见 公 式 16-2) 。 一 个 显著 的 结果 是 ， 假 设 时 间 充 
分 ， 根 据 最 优 策略 ， 这 些 估计 保证 能 够 收敛 到 最 优 状 态 。 


公式 16-2: BARRIA 
Vi (8) + max ) T(s,a,s'){ R(s,a,s') +y. VCs) | for all s 


Vi (s) ERIE AOS ASH TG THE < 


W 该 算法 是 一 个 动态 规划 的 例子 它 将 一 个 复杂 问题 (在 本 例 中 是 估 
计 可 能 无 限 次 的 折扣 后 未 来 回报 的 总 和 ) 拆 分 成 可 以 迭代 处 理 的 易 处 
ee ae 
上 状态 


了 解 最 优 状 态 值 很 有 用 ， 特 别 是 在 评估 策略 时 ， 但 是 它 不 会 明确 告诉 
代理 需要 做 什么 。 竺 运 的 是 ， 贝 尔 受 发 现 了 一 个 非常 类 似 的 算法 来 评 
估 最 优 状 态 -行为 值 ， 通 向 称 为 Q 值 。 状 态 - 行 为 对 (s, a) 的 最 优 Q 

值 ， 标 记 为 Q* (s, a) ， 是 代理 到 达 状 态 s 并 选择 了 行为 a 后 ， 假 设 在 
此 行为 后 其 行为 最 优 ， 预 期 的 平均 折扣 后 未 来 回报 的 总 和 。 


下 面 是 它 的 工作 原理 : 首先 将 所 有 的 Q 值 估计 初始 化 为 零 ， 然 后 使 用 Q 
值 适 代 算 法 更 新 它们 〈 见 公式 16-3) ° 


公式 16-3: Q 值 迭代 算法 
Qin (50) Y T(s,a,s) LR(s,a,s) +. maxQ,(s',a)) forall (s,a) 


一 旦 有 了 最 优 Q 值 ， 定 义 最 优 策略 (标记 为 re* (s) ) 就 非常 简单 ， 当 
代理 在 状态 s 时 ， 应 该 选择 具有 最 高 Q 值 的 行为 ”059 。 


证 我 们 将 该 算法 应 用 到 图 16-8 所 示 的 MDP 中 。 首 先 ， 需 要 定义 MDP: 


nan=np.nan # represents impossible actions 

T = np.array([ # shape=[s, a, s'] 
[[0.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]], 
[[O.0, 1.0, 0.0], [nan, nan, nan], [0.0, 0.0, 1.0]], 
[[nan, nan, nan], [0.8, 0.1, 0.1], [nan, nan, nan]], 

]) 

R = np.array([ # shape=[s, a, s'] 
[[10., 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], 
[[10., 0.0, 0.0], [nan, nan, nan], [0.0, 0.0, -50.]], 
[[nan, nan, nan], [40., 0.0, 0.0], [nan, nan, nan]], 


1) 


possible_actions = [[0, 1, 2], [0, 2], [1]] 


现在 ， 运 行 Q 值 近代 算法 : 


Q = np.full((3, 3), -np.inf) # -inf for impossible actions 
for state, actions in enumerate(possible actions): 


Q[state, actions] = 0.0 # Initial value = 0.0, for all possible actions 


ll 
© 


learning_rate .01 


ll 
© 


discount_rate .95 


n_iterations = 100 


for iteration in range(n_iterations): 
Q_prev = Q.copy() 
for s in range(3): 
for a in possible actions[s]: 
Q[s, a] = np.sum([ 
T[s, a, sp] * (R[S, a, sp] + discount_rate * np.max(Q_prev[sp])) 
for sp in range(3) 


1) 


所 得 到 的 Q 值 如 下 所 示 : 


>>> Q 

array([[ 21.89498982, 20.80024033, 16.86353093], 
[ 1.11669335, -inf, 1.17573546], 
[ -inf, 53.86946068, -inf]]) 


>>> np.argmax(Q, axis=1) # optimal action for each state 


array([0, 2, 1]) 


这 给 出 了 折扣 率 为 0.95 时 ， 该 MDP 的 最 优 策略 ， 状 态 s ,时 选择 行为 av 
， 状 态 s 1 时 选择 行为 8 ， (通过 火焰 ! ) ， 状 态 s 时 选择 行为 8， (唯一 
可 能 的 行为 ) 。 有 趣 的 是 ， 当 折扣 率 降低 为 0.9 时 ， 最 优 策略 改变 为 : 

状态 s 1 时 最 佳 行为 变 为 a。 (保持 状态 ， 不 通过 火焰 ) 。 这 是 有 道理 

的 ， 相 比 于 未 来 如 果 更 看 中 现在 的 价值 ， 那 么 未 来 回报 的 前 景 就 不 值 
得 立即 付出 。 


[1] “A Markovian Decision Process”, R.Bellman (1957) 。 
时 间 差 分 学 习 与 Q 学 习 


具有 离散 行为 的 强化 学 习 问 题 通常 可 以 建 模 为 马尔 可 夫 决 策 过 程 ， 但 
是 最 初时 代理 不 知道 转换 概率 是 什么 ( 它 不 知道 了 (s, a, s) ) ， 也 
不 知道 回报 将 是 什么 (不 知道 R (s，a，s') ) 。 代 理 必须 至 少 经 历 一 
次 每 一 个 状态 和 每 一 个 转换 才能 知道 回报 ， 如 果 需 要 对 转换 概率 进行 
合理 的 信 计 ， 它 必须 多 次 体验 上 述 过 程 。 


时 间 差 分 学 习 (Temporal Difference Learning，TD 学 习 ) 算法 与 价值 迭 
代 算 法 非常 相似 ， 但 是 考虑 到 代理 可 能 仅 具 有 部 分 MDP 知 识 ， 进 行 了 
调整 。 通 常 ， 我 们 假设 初始 时 代理 只 知道 可 能 的 状态 和 行为 。 它 使 用 
一 个 探索 策略 (例如 ， 纯 随机 测试 ) 来 探索 MDP， 然 后 随 着 它 的 进 
ee Se 0s ( 见 
公式 16-4) 。 


公式 16-4: TD 学 习 算 法 
Vals) (1 -a)V,(s) +a(r+y.V(s)) 


:a 是 学 习 率 (例如 : 0.01) 


eter ar tare pes eas 特别 是 一 次 只 处 理 
一 个 样本 。 与 SGD 相 似 ， 如 果 逐 渐 减 小 学 习 率 ， 它 才 会 真正 收敛 ， 否 
则 天 会 保持 在 最 佳 状态 附近 。 


对 每 个 状态 sS， 该 算法 简单 地 持续 跟踪 代理 离开 该 状态 时 获得 的 即时 回 
报 的 平均 值 ， 加 上 期 望 以 后 得 到 的 回报 〈 假 设 行为 最 佳 ) 。 


类 似 地 ，Q 学 习 算 法 是 对 Q 值 算法 在 初始 状态 时 转换 概率 和 回报 未 知情 
况 下 的 调整 ( 见 公式 16-5) ° 


公式 16-5: QA Bi 
Qn i | - Qa),(3,0) talr +y. via Qi(s a)) 


对 于 每 一 个 状态 -行为 对 (s，a) ， 该 算法 持续 跟踪 代理 通过 行为 a 离 开 
状态 s 时 的 平均 回报 ， 加 上 以 后 的 期 望 回报 。 由 于 目标 策略 会 采取 最 住 
行为 ， 所 以 对 于 下 一 个 状态 采用 最 大 的 Q 值 预 估 值 。 


下 面 介绍 如 何 实现 Q 学 习 算 法 : 


import numpy.random as rnd 


learning_rateO = 0.05 


learning_rate_decay = 0.1 


n_iterations = 20000 


s = 0 # start in state 0 


Q = np.full((3, 3), -np.inf) # -inf for impossible actions 
for state, actions in enumerate(possible actions): 


Q[state, actions] = 0.0 # Initial value = 0.0, for all possible actions 


for iteration in range(n_iterations): 
a = rnd.choice(possible_actions[s]) # choose an action (randomly) 
sp = rnd.choice(range(3), p=T[s, a]) # pick next state using T[s, a] 
reward = R[s, a, sp] 
learning_rate = learning_rateO / (1 + iteration * learning_rate_decay) 
Q[s, a] = learning_rate * Q[s, a] + (1 - learning_rate) * ( 


reward + discount_rate * np.max(Q[sp]) 


S = sp # move to next state 


EEEIEE, WRESTLE o AKARVA DE 
执行 的 那个 ， 所 以 该 算法 称 为 离线 策略 (off-policy) 算法 。 令 人 惊讶 
的 是 ， 该 算法 能 根据 代理 的 随机 行为 学 习 最 佳 策 略 (想象 一 下 你 跟 一 
个 猴子 老师 学 习 打 高 尔 夫 球 ) 。 我 们 能 做 得 更 好 吗 ? 


RRR 
当然 ， 只 有 在 探索 策略 充分 发 据 MDP 时 ，Q 学 习 算法 才能 奏效 。 尽 管 


随机 策略 能 够 保证 最 终 多 次 访问 每 个 状态 和 每 种 变换 ， 但 古 做 到 这 些 
可 能 会 花费 特别 长 的 时 间 。 因 此 ， 一 个 更 好 的 选择 是 使 用 s-greedy 策 


略 : 在 每 一 步 它 以 概率 s 选 择 随机 行动 或 以 概率 1-s 选 择 贪 梦 行 动 (选择 
具有 最 高 Q 值 的 行为 ) 。 与 完全 随机 策略 相 比 ，s-greedy 策 略 的 优点 是 
它 将 花费 越 来 越 多 的 时 间 探 索 环 境 中 有 趣 的 部 分 ， 因 为 Q 值 估计 变 得 越 
来 越 好 ， 同 时 还 花费 一 些 时 间 访 问 MDP 未 知 区 域 。 常 见 的 方式 是 e: 从 大 
的 值 开始 (BIEN, 1.0) ， 然 后 逐渐 减 小 比如， 减 小 到 0.05) 。 与 其 
依赖 于 机 会 做 探索 ， 还 不 如 或 励 探 夺 策略 舌 试 它 以 前 没有 竹 试 过 的 行 
为 。 它 可 以 作为 额外 值 加 到 Q 值 的 售 计 上 来 实现 ， 如 公式 16-6 所 示 。 


公式 16-6: 使 用 探索 画 数 的 Q 学 习 
((s,a) —(L-a)Q(s,a) +alr +y. max 人 ODN ,a ))) 


N (s, a) 计算 在 状态 s 时 选择 行为 a 的 次 数 。 


f (q, n) 是 探索 函数 ， 如 f (q, n) =q+K/ (1+n) ，K 是 好 奇 度 超 参 
数 ， 用 于 测量 代理 被 吸引 到 未 知 的 次 数 。 


逼近 Q 学 习 


Q 学 习 的 主要 问题 是 不 能 很 好 地 扩展 到 具有 大 量 状态 和 行为 的 大 型 (其 
至 中 型 ) MDP 中 。 考 虑 使 用 Q 学 习 来 玩 吃 豆 人 游戏 (Ms.Pac-Man) ° 
有 250 颗 豆子 供 吃 豆 人 吃 ， 每 个 豆子 有 存在 或 不 存在 〈 即 已 经 被 吃 了 ) 
两 种 状态 。 所 以 可 能 的 状态 数 大 于 2 2508107 (考虑 只 有 豆子 存在 的 可 
能 状态 ) 。 这 比 可 观察 到 的 宇宙 中 的 原子 还 要 多 ， 所 以 绝对 没有 办 法 
RADERA © 
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合 〈 例 如， 最 接近 幽灵 的 距离 ， 及 其 方向 等 ) 来 估计 Q 值 ， 但 是 

DeepMind 显 示 使 用 深度 学 习 网 络 会 工作 得 更 好 ， 尤 其 是 对 复杂 问题 ， 

并 且 不 需要 任何 的 工程 特征 。 用 来 估计 Q 值 的 DNN 称 为 深度 Q 网 络 
(DQN) ， 使 用 DQN 进 行 通 近 Q 学 习 称 为 深度 Q 学 习 。 


本 章 和 狮 余 的 部 分 将 使 用 深度 Q 学 习 来 训练 一 个 玩 吃 豆 人 游戏 的 代理 ， 就 
像 DeepMind 在 2013 年 做 的 那样 。 通 过 简单 的 调整 该 代码 可 以 学 习 玩 大 
部 分 的 Atari 游 戏 ， 而 且 玩 得 相当 好 。 在 大 多 数 行为 游戏 中 ， 它 都 可 以 
达到 超人 的 技能 ， 但 是 它 不 擅长 具有 长 时 间 故 事情 和 的 游戏 。 


使 用 深度 Q 学 习 玩 吃 豆 人 游戏 

因为 使 用 Atari 游 戏 环境 ， 所 以 首先 安 和 冯 OpenAI gym 的 Atari 依 赖 。 当 处 
于 这 种 环境 时 ， 也 需要 安装 其 他 可 能 想 玩 的 OpenAI gym 的 依赖 。 在 
Mac OS 上 ， 假 如 已 经 安装 了 Homebrew (http://brew.sh/) ， 仅 需要 运 
行 : 


$ brew install cmake boost boost-python sdl2 swig wget 


在 Ubuntu 上 ， 输 入 如 下 命令 〈 如 果 使 用 Python 2， 使 用 python 来 代替 
python3) : 


$ apt-get install -y python3-numpy python3-dev cmake zlibig-dev libjpeg-dev\ 


xvfb libav-tools xorg-dev python3-opengl libboost-all-dev libsd12-dev swig 
然后 安装 Python 的 其 他 模块 : 
$ pip3 install --upgrade 'gym[all]， 
如 果 一 切 顺 利 ， 应 该 束 可 以 创建 吃 豆 人 游戏 环境 了 : 


>>> env = gym.make("MsPacman-v0") 

>>> obs = env.reset() 

>>> obs.shape # [height, width, channels] 
(210, 160, 3) 


>>> env.action_space 


Discrete(9) 


正如 你 所 看 到 的 ， 这 里 有 九 个 可 用 的 离散 操作 ， 对 应 操纵 杆 中 9 个 可 能 
的 位 置 ( 左 、 右 、 上 、 下 、 中 间 、 左 上 ， 等 等 ) ， 观 察 值 是 Atari 屏 幕 
的 截图 (如 图 16-9 左 图 所 示 ) ， 代 表 3D NumPy 数 组 。 这 些 图 片 有 点 

大 ， 所 以 我 们 将 创建 一 个 小 的 预 处 理 函 数 ， 来 裁剪 图 片 并 将 其 压缩 到 
88x80 像 素 ， 将 其 转换 为 灰 度 ， 并 提高 吃 豆 人 游戏 的 对 比 度 。 这 将 减 小 
DQN 所 需 的 计算 量 ， 并 加 速 训练 。 


mspacman_color = np.array([210, 164, 74]).mean() 


def preprocess_observation(obs): 
img = obs[1:176:2, ::2] # crop and downsize 
img = img.mean(axis=2) # to greyscale 
img[img==mspacman_color] = 0 # improve contrast 
img = (img - 128) / 128 - 1 # normalize from -1. to 1. 


return img.reshape(88, 80, 1) 


预 处 理 的 结果 显示 见 图 16-9 ( 右 ) 。 


原始 观察 (160X210 RGB) 
MAENE (88X80 灰 度 图 ) 


16-9: 吃 豆 人 游戏 观察 值 ， 原 始 值 (£) 和 预 处 理 后 的 值 A) 


下 面 来 创建 DQN。 它 可 能 只 需要 一 个 状态 -行为 对 (s, a) 作为 输入 ， 
并 输出 一 个 根据 Q 值 Q (s，a) ， 但 是 因为 行为 是 离散 的 ， 使 用 神经 网 

络 更 为 方便 ， 只 需要 一 个 状态 s 作 为 输入 ， 并 输出 每 个 行为 的 Q 值 佑 

Ne ee me es Eanes 
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可 以 看 到 ， 我 们 使 用 的 训练 算法 需要 结构 相同 的 两 个 DQN (但 是 参数 
不 同 ) : 一 个 用 于 在 训练 期 间 芍 驭 吃 豆 人 (演员 ) ， 男 一 个 观察 演员 
并 从 实验 和 错误 中 学 习 (评论 家 ) 。 我 们 将 定期 复制 评论 家 到 演员 。 
a 
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输入 = 状态 


图 16-10: 玩 吃 豆 人 游戏 的 深度 Q 网 络 


from tensorflow.contrib.layers import convolution2d, fully_connected 


input_height = 88 
input_width = 80 
input_channels = 1 
conv_n_maps = [32, 64, 64] 


conv_kernel_sizes = [(8,8), (4,4), (3,3)] 


conv_strides = [4, 2, 1] 


conv_paddings = ["SAME"]*3 


conv_activation = [tf.nn.relu]*3 


n_hidden_in = 64 * 11 * 10 # conv3 has 64 maps of 11x10 each 


n_hidden = 512 


hidden_activation = tf.nn.relu 


n_outputs = env.action_space.n # 9 discrete actions are available 


initializer = tf.contrib.layers.variance_scaling_initializer() 


def q_network(X_state, scope): 


prev_layer = X_state 


conv_layers = [] 


with tf.variable_scope(scope) as scope: 


for n_maps, kernel_size, stride, padding, activation in zip( 


conv_n_maps, conv_kernel_sizes, conv_strides, 


conv_paddings, conv_activation): 


prev_layer = convolution2d( 


prev_layer, num_outputs=n_maps, kernel_size=kernel_size, 


stride=stride, padding=padding, activation_fn=activation, 
weights_initializer=initializer ) 
conv_layers.append(prev_layer ) 
last_conv_layer_flat = tf.reshape(prev_layer, shape=[-1, n_hidden_in]) 
hidden = fully_connected( 
last_conv_layer_flat, n_hidden, activation_fn=hidden_activation, 
weights_initializer=initializer ) 
outputs = fully_connected( 
hidden, n_outputs, activation_fn=None, 
weights_initializer=initializer ) 
trainable_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, 
scope=scope.name) 
trainable_vars_by_name = {var.name[len(scope.name):]: var 
for var in trainable_vars} 


return outputs, trainable_vars_by_name 


该 代码 的 第 一 部 分 是 定义 DQN 结 构 的 超 参 数 。 然 后 使 用 qd_network () 

函数 创建 DQN， 采 用 环境 状态 X_state 作 为 输入 和 环境 范围 的 名 称 。 注 

oe 隐藏 状态 〈 除 了 闪烁 状态 和 幽灵 的 方向 ) ， 只 用 一 个 
观察 者 来 表示 环境 状态 。 


trainable_vars_by_name 字 上 段 收 集 了 该 DQN 的 所 有 可 训练 变量 。 当 创建 
复制 评论 家 DQN 到 演员 DQN 的 操作 时 ， 它 将 即时 有 用 。 字 段 的 key 古 变 


量 的 名 称 去 挥 与 之 作用 域名 称 对 应 的 前 约 。 如 下 所 示 : 


>>> trainable_vars_by_name 
{'/Conv/biases:0': <tensorflow.python.ops.variables.Variable at 0x121cf7b50>, 
'/Conv/weights:@': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_i1/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_1/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_2/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/Conv_2/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected/weights:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected_1/biases:0': <tensorflow.python.ops.variables.Variable...>, 
'/fully_connected_1/weights:0': <tensorflow.python.ops.variables.Variable...>} 
现在 ， 我 们 来 创建 输入 占 位 符 ， 两 个 DQN， 以 及 复制 评论 家 DQN 到 演 
员 DQN 的 操作 : 
X_state = tf.placeholder(tf.float32, shape=[None, input_height, input_width, 
input_channels] ) 
actor_q_values, actor_vars = q_network(X_state, scope="q_networks/actor") 


critic_q_values, critic_vars = q_network(X_state, scope="q_networks/critic") 


copy_ops = [actor_var.assign(critic_vars[var_name] ) 
for var_name, actor_var in actor_vars.items()] 


copy_critic_to_actor = tf.group(*copy_ops) 


证 我 们 退 一 步 : 现在 有 两 个 DQN， 它 们 都 能 够 将 环境 状态 〈 即 预 处 理 
过 的 观察 值 ) 作为 输入 ， 并 输出 该 状态 下 每 个 可 能 行为 的 预测 Q 值 。 另 
外 ， 还 有 一 个 名 为 copy_critic_to_actor 的 操作 ， 复 制 评 论 家 DQN 的 所 有 
可 训练 变量 到 演员 DQN。 我 们 使 用 TensorFlow 的 tf.group () KROS 
有 赋值 操作 分 组 到 一 个 简单 的 操作 中 。 


演员 DQN 用 于 玩 吃 豆 人 游戏 (SURES) 。 如 前 所 述 ， 你 希望 
开 能 够 彻 故地 探 过 游戏， 所 以 通 肖 布 户 它 与 e-greedy 宽 略 或 者 其 他 探索 
策略 配合 使 用 。 


但 十 评论 家 DQN 呢 ? 它 将 如 何 学 习 玩 游戏 ? AERA, EZKE 
测 的 Q 值 与 党员 通过 体验 游戏 所 估计 的 Q 值 相 匹 配 。 具 体 来 说 ， 先 让 演 
员 玩 一 会 游戏 ， 并 在 重播 存储 器 (replay memory) 中 存放 其 所 有 的 经 
验 。 每 个 存储 大 是 一 个 5 元 组 (状态 、 行 为 ~ 下 一 个 状态 、 回 报 、 继 
续 ) ， 当 游戏 结束 时 , “继续 ” 值 为 0.0， 或 1.0。 接 下 来 ， 将 定期 从 重播 
存储 妖 中 抽样 一 批 记忆 ， 然 后 从 中 估计 Q 值 。 最 后 ， 训 练 评论 家 DQN 
使 用 沼 规 学 习 技术 预测 这 些 Q 值 。 每 次 训练 天 代 后 ， 复 制 评论 家 DQN 
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行为 、 回报 和 下 一 个 状态 aS 


m 是 记忆 批 次 的 大 小 。 
.wise 和 Prove 是 评论 家 和 演员 的 参数 。 
.0(s ,a bm) 是 评论 家 DQN 对 第 个 记忆 的 状态 -行为 预测 的 Q 值 。 


QG? a Ou) 是 演员 DQN 预 测 的 Q 值 ， 如 果 选 择 行为 a， 它 可 以 根据 
下 一 个 状态 s (i) 预测 。 


y O 是 第 i 个 记忆 的 目标 Q 值 。 注 意 ， 它 等 于 演员 实际 观察 的 回报 ， 加 
上 假设 发 挥 最 优 其 预测 的 未 来 回报 (根据 它 目前 所 知道 的 ) 。 


JO) 是 训练 评论 家 DQN 使 用 的 成 本 函数。 正如 你 看 见 的 ， 它 是 演员 
DQN 估 计 的 Q 值 与 评论 家 预测 的 这 些 Q 值 之 间 的 均 方差 。 


` EPan 2c), (ES o IRAE, Aem EARN 
连续 经 验 训练 评论 家 DQN。 这 将 引入 更 多 的 误差 ， 并 减 小 训练 算 去 的 
通过 使 用 重播 内 存 ， 我 们 确保 提供 给 训练 算法 的 记忆 可 以 


让 我 们 添加 评论 家 DQN 的 训练 操作 。 首 先 ， 需 要 能 够 计算 记忆 批 次 中 
每 个 状态 -行为 的 预测 Q 值 。 因 为 DQN 为 每 个 可 能 的 行为 输出 一 个 Q 
值 ， 我 们 需要 保留 与 该 记忆 实际 选择 的 行为 对 应 的 Q 值 。 为 此 ， 我 们 将 


行为 转换 为 一 个 单独 的 向 量 ( 记 住 ， 该 向 量 是 一 个 除了 第 i 位 是 1， 其 他 
都 是 0 的 向 量 ) ， 并 乘 以 Q 值 : 其 输出 除了 一 个 对 应 记忆 行为 的 Q 值 
外 ， 其 他 都 是 0。 然 后 对 其 求 和 ， 得 到 想 要 的 每 个 记忆 的 Q 值 。 


X_action = tf.placeholder(tf.int32, shape=[None] ) 
q_value = tf.reduce_sum(critic_q_values * tf.one_hot(X_action, n_outputs), 


axis=1, keep_dims=True) 


假设 目标 Q 值 将 通过 占 位 符 提 供 ， 接 下 来 添加 训练 操作 。 同 样 创建 了 一 
个 名 为 global_step 的 常量 o 优化 器 的 minimize () 操作 将 负责 增加 它 。 
我 们 创建 通常 的 初始 化 (init) 操作 和 守护 程序 (Saver) ° 

y = tf.placeholder(tf.float32, shape=[None, 1]) 

cost = tf.reduce_mean(tf.square(y - q_value) ) 

global_step = tf.Variable(0, trainable=False, name='global_step' ) 


optimizer = tf.train.AdamOptimizer(learning_rate) 


training_op = optimizer.minimize(cost, global_step=global_step) 


init = tf.global_variables_initializer() 


saver = tf.train.Saver() 


这 是 构建 阶段 。 在 进入 执行 阶段 之 前 ， 我 们 需要 一 系列 工具 。 首 先 ， 
开始 实现 重播 存储 右 。 我们 将 使 用 双 同 队列 ， 因 为 在 达到 最 大 内 存 
时 ， 它 可 以 有 效 地 将 元 系 推 送 到 队列 ， 并 从 队列 末尾 弹出 。 同 样 ， 写 
NERO EHS FR a PA LE 


from collections import deque 


replay_memory_size = 10000 


replay_memory = deque([], maxlen=replay_memory_size) 


def sample_memories(batch_size): 


indices = rnd.permutation(len(replay_memory) )[:batch_size] 


cols = [[], [], [], [], []] # state, action, reward, next_state, continue 


for idx in indices: 


memory = replay_memory[idx] 


for col, value in zip(cols, memory): 


col.append(value) 


cols = [np.array(col) for col in cols] 


return (cols[0], cols[1], cols[2].reshape(-1, 1), cols[3], 


cols[4].reshape(-1, 1)) 


接 下 来 需要 演员 来 探索 游戏 。 我 们 使 用 e-greedy 策 略 ， 在 50000 个 训练 
步骤 里 ， 将 从 1.0 逐 步 降 低 到 0.05: 


eps_min = 0.05 


eps_max = 1.0 


eps_decay_steps = 50000 


def epsilon_greedy(q_values, step): 


epsilon = max(eps_min, eps_max - (eps_max-eps_min) * step/eps_decay_steps) 


if rnd.rand() < epsilon: 


return rnd.randint(n_outputs) # random action 


else: 


return np.argmax(q_values) # optimal action 


完成 了 ! 下 面 开始 训练 。 执 行 阶段 不 是 S 费时 间 比 较 


o 所以， 深呼吸。 预备 ， 开 始 ! Bc, wyatt 


花费 
tD 
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n_steps = 100000 # total number of training steps 

training_start = 1000 # start training after 1,000 game iterations 
training_interval = 3 # run a training step every 3 game iterations 
save_steps = 50 # save the model every 50 training steps 


copy_steps = 25 # copy the critic to the actor every 25 training steps 


discount_rate = 0.95 


skip_start 90 # skip the start of every game (it's just waiting time) 


batch_size = 50 


iteration = 0 # game iterations 


checkpoint_path = "./my_dqn.ckpt" 


done = True # env needs to be reset 


接 下 来 ， 打 开会 话 并 运行 主要 训练 循环 : 


with tf.Session() as sess: 
if os.path.isfile(checkpoint_path): 
saver.restore(sess, checkpoint_path) 
else: 
init.run() 
while True: 
step = global_step.eval() 
if step >= n_steps: 
break 
iteration += 1 
if done: # game over, start again 
obs = env.reset() 
for skip in range(skip_start): # skip the start of each game 


obs, reward, done, info = env.step(0) 


state = preprocess_observation(obs) 


# Actor evaluates what to do 


q_values = actor_q_values.eval(feed_dict={X_state: [state]}) 


action = epsilon_greedy(q_values, step) 


# Actor plays 


obs, reward, done, info = env.step(action) 


next_state = preprocess_observation(obs) 


# Let's memorize what just happened 


replay_memory.append((state, action, reward, next_state, 1.0 - done)) 


state = next_state 


if iteration < training_start or iteration % training_interval != 0: 


continue 


# Critic learns 


X_state_val, X_action_val, rewards, X_next_state_val, continues = ( 


sample_memories(batch_size) ) 


next_q_values = actor_q_values.eval( 


feed_dict={X_state: X_next_state_val}) 


max_next_q_values = np.max(next_q_values, axis=1, keepdims=True) 


y_val = rewards + continues * discount_rate * max_next_q_values 


training_op.run(feed_dict={X_state: X_state_val, 


X_action: X_action_val, y: y_val}) 


# Regularly copy critic to actor 


if step % copy_steps == 0: 


copy_critic_to_actor.run() 


# And save regularly 


if step % save_steps == 0: 


saver.save(sess, checkpoint_path) 


如 琳 检 查 列 表 文件 是 否 存 在 ， 我 们 从 恢复 模型 开始 ， 否 则 就 十 正常 的 
初始 化 变量 。 然 后 开始 主 循 环 ，iteration 记 录 程 序 开 始 后 游戏 进行 的 步 
又 总 数 ，step 记 录 训 练 开始 后 的 训练 步骤 总 数 (如 果 检 查 点 被 恢复 ， 全 
局 步骤 也 被 恢复 ) 。 之 后 将 重 置 游戏 〈 跳 过 没 发 生 什 么 的 第 一 个 无 意 
义 的 步骤 ) 。 接 下 来 ， 演 员 评 估 该 做 什么 ， 并 玩 游戏 ， 其 经 验 存 储 在 


重播 存储 器 中 。 然 后 ， 评 论 家 定期 地 (热身 之 后 ) VGA ° HF 
论 家 采样 一 下 记忆 ， 并 要 求 演员 评估 下 一 个 阶段 所 有 行为 的 Q 值 ， 并 使 
用 公式 16-7 计 算 目 标 Q 值 y_val。 唯 一 需要 注意 的 是 ， 我 们 必须 用 
Continues 回 量 乘 以 下 一 个 状态 的 Q 信 来 输出 游戏 结束 时 对 应 记忆 的 0 
值 。 接 下 来 ， 运 行 训练 操作 来 提供 评论 家 预测 Q 值 的 能 力 。 最 后 ， 定 期 
地 将 评论 家 复制 到 演员 ， 并 保存 模型 。 


A rene, 训练 非常 慢 : 如 果 使 用 笔记 本 电脑 进行 训练 ， 想 要 使 得 
号 豆 人 得 到 不 错 的 成 绩 将 化 费 几 天 时 间 。 观 察 学 习 曲 线 ， 计 算 每 次 庆 
戏 的 平均 回报 ， 你 会 发 现 数据 极其 哮 杂 。 在 某 些 情况 下 ， 很 长 时 间 内 
可 能 都 没有 进展 ， 直 到 代理 突然 学 会 生存 一 段 合 理 的 时 间 。 如 前 所 
述 ， 一 种 解决 方案 是 为 模型 注入 尽 可 能 多 的 先 验 知 识 (例如 ， 通 过 预 
处 理 、 回 报 等 ) ， 还 可 以 笑 试 通过 训练 它 模 念 基本 筑 略 来 引导 模型 。 
m RL 都 需要 很 大 的 耐心 和 尝试 ， 好 在 结果 是 令 人 兴奋 


练习 
1. 如 何 定义 强化 学 习 ? 它 和 常规 的 监督 学 习 或 无 监督 学 习 有 何 区 别 ? 


2. 你 能 想到 3 种 本 章 没 有 提 到 的 RL 应 用 吗 ? 它们 的 环境 分 别 是 什么 吗 ? 
每 个 可 能 的 行为 是 什么 ? 回报 是 什么 ? 


3. 什 么 是 折扣 率 ? 如 果 改 变 了 折扣 率 ， 最 优 策略 会 改变 吗 ? 
4. 如 何 度量 强化 学 习 代 理 的 性 能 ? 

5. 什 么 是 信用 分 配 问题 ? 它 什么 时 候 发 生 ? 如 何 减轻 它 ? 
6. 使 用 重播 内 存 的 意义 是 什么 ? 

7. 什 么 是 关闭 策略 RL 算 法 ? 


8. 使 用 深度 Q 学 习 解 决 OpenAI gym 的 “BypedalWalker-v2”。 其 Q 网 络 不 需 
要 很 深 。 


9. 使 用 策略 梯度 训练 代理 玩 乒乓 球 游戏 (OpenAI gym 里 的 Pong-v0) ° 
注意 ， 单 个 观察 值 并 不 足以 说 明 球 的 速度 和 方向 。 一 种 解决 方案 是 一 


次 将 两 个 观察 值 传递 给 神经 网 络 策略 。 为 了 降低 维度 、 加 速 训练 ， 需 
要 对 图 片 进行 预 处 理 ( 裁 辫 、 调 整 大 小 并 转换 为 黑 日 ) ， 并 将 其 合并 
为 单个 图 片 (例如 ， 通 过 和 窗 盖 ) 。 


10. 如 果 有 大 约 100 美 元 的 闲钱 ， 购 买 树 莓 派 3 加 一 些 便宜 的 机 器 人 组 
件 ， 为 其 安装 TensorFlow， 束 可 以 开始 玩 了 ! 例如 ， 你 可 以 看 看 Lukas 
Biewald 发 表 的 一 些 好 玩 的 帖子 (https://goo.gVEu5u28 ) ， 或 者 看 看 
GoPiGo 或 BrickPi。 通 过 使 用 策略 梯度 来 构建 一 个 真实 的 车 - 杆 模 型 ? 或 
者 构建 一 个 学 走路 的 机 器 人 蜗 蛛 ; 当 其 解决 某 些 目标 时 给 予 其 回报 
(你 需要 传感器 测量 离 目标 的 距离 ) 。 唯 一 限制 你 的 是 想象 力 。 


参考 管 案 详 见 附录 A 。 
致谢 


在 完成 本 书 的 最 后 一 章 之 前 ， 我 想 感谢 你 读 到 了 最 后 一 段 。 我 真诚 地 
希望 阅读 本 书 给 你 市 去 很 多 乐趣 ， 布 望 它 对 你 的 项 目 有 用 。 


如 宁 发 现 销 误 ， 请 反馈 给 我 。 我 更 想 知 道 你 的 想法 ， 不 要 犹豫 ， 请 通 
过 O?Reilly 或 者 GitHub 项 目 ageron/handson-ml 联 系 我 。 


展望 未 来 ， 我 对 你 最 好 的 建议 是 练习 、 再 练习 : 使 用 Jupyter 笔 记 本 答 
试 完成 所 有 你 还 没有 做 的 练习 ， 加 入 Kaggle.com 或 其 他 ML 社区 ， 观 看 
ML 课程 ， 阅 读 文 献 ， 参 加 会 议 ， 拜 会 专家 。 你 可 能 还 需要 人 研究 本 书 之 
包括 推荐 系统 、 聚 类 算法 、 异 常 检 测算 法 和 簿 传 算 

y o 


我 最 大 的 愿望 是 这 本 书 能 够 激励 你 构建 一 个 惠及 所 有 人 的 ML 应 用 ， 它 
将 会 征 什么 呢 ? 


Aureélien Geéron，2016 年 11 月 26 日 


RA 练习 答案 


` 代码 相关 练习 的 答案 可 以 在 Jupyter 笔 记 本 中 获得 : 
https://github.com/ageron/handson-ml_ ° 

第 1 章 : 机 器 学 习 概 览 

1. 机 器 学 习 是 一 门 能 够 让 系统 从 数据 中 学 习 的 计算 机 科学 。 

2. 机 融 学 习 非 常 利于 : 不 存在 已 知 算法 解决 方案 的 复杂 问题 ， 需 要 大 量 


手动 调整 或 是 规则 列表 超 长 的 问题 ， 创 建 可 以 适应 环境 波动 的 系统 ， 
以 及 帮助 人 类 学 习 (比如 数据 挖掘 。 


3. 补 标记 的 训练 集 是 指 包含 每 个 实例 所 期 望 的 解决 方案 的 训练 集 。 
4. 最 第 见 的 两 个 监督 式 任务 是 回归 和 分 类 。 
5. 毅 见 的 无 监督 式 任务 包括 聚 类 、 可 视 化 、 降 维和 关联 规则 学 习 。 


6. 如 条 想 计 机 右 人 学 会 如 何在 各 种 未 知 地 形 上 行走 ， 强 化 学 习 可 能 表现 
最 好 ， 因 为 这 正 是 一 个 典型 的 强化 学 习 擅长 解决 的 问题 。 将 这 个 问题 
表达 为 监督 式 或 半 监 督 式 学 习 问 题 也 可 以 ， 但 还 是 有 点 不 太 目 然 。 


7. 如 有 果 你 不 知道 如 何 定义 分 组 ， 那 么 可 以 使 用 聚 类 算法 (无 监督 式 学 
习 ) 将 相似 的 顾客 分 为 一 组 。 但 是 ， 如 果 你 知道 想 要 的 是 什么 样 的 群 
组 ， 那 么 可 以 将 每 个 组 的 多 个 示例 反馈 给 分 类 算法 (监督 式 学 习 ) ， 
它 束 可 以 将 所 有 的 顾客 归 类 到 这 些 组 中 。 


8. 垃 圾 邮件 检测 是 个 典型 的 监督 式 学 习 问 题 : 将 邮件 和 它们 的 标签 《二 
FAR PELL ER) 一 起 提供 给 算法 。 


9. 在 线 学 习 系 统 可 以 进行 增 量 学 习 ， 与 批量 学 习 系 统 正好 相反 。 这 使 得 
它 能 够 快速 适应 不 断 变 化 的 数据 和 自动 化 系统 ， 并 且 能 够 在 大 量 的 数 
据 上 进行 训练 。 


10. 核 外 算法 可 以 处 理 计算 机 主 内 存 无 法 应 对 的 大 量 数据 。 它 将 数据 分 
割 成 小 批量 ， 然 后 使 用 在 线 学 习 技 术 从 这 些小 批量 中 学 习 。 


11. 基 于 实例 的 学 习 系统 通过 死记 硬 背 来 学 习 训 练 数据 ， 当 给 定 一 个 新 
行 预 测 。 


12. 模 型 有 一 个 或 多 个 参数 ， 这 些 参数 决定 了 模型 对 新 的 给 定 实例 会 做 
出 怎样 的 预测 (比如 ， 线 性 模型 的 斜率 ) 。 学 习 算 法 试图 找到 这 些 参 
数 的 最 佳 值 ， 使 得 该 模型 能 够 很 好 地 泛 化 至 新 实例 。 超 参数 是 学 习 算 
法 本 身 的 参数 ， 不 是 模型 的 参数 〈 比 如 ， 要 应 用 的 正则 化 数量 ) 。 


13. 基 于 模型 的 学 习 算 法 搜索 使 模型 泛 化 最 佳 的 模型 参数 值 。 通 各 通过 
使 成 本 函数 最 小 化 来 训练 这 样 的 系统 ， 成 本 函数 衡量 的 是 系统 对 训练 
数据 的 预测 有 多 坏 ， 如 有 果 模 型 有 正则 化 ， 则 再 加 上 一 个 对 模型 复杂 度 
的 惩 如 。 学 习 算 法 最 后 找到 的 参数 值 束 是 最 终 得 到 的 预测 函数 ， 只 需 
要 将 实例 特征 提供 给 这 个 预测 函数 即 可 进行 预测 。 


14. 机 器 学 习 面 临 的 一 些 主要 挑战 是 : 数据 缺乏 、 数 据 质量 差 、 数 据 不 
具 代 表 性 、 特 征 不 具 信 息 量 、 模 型 过 于 简单 对 训练 数据 拟 合 不 足 ， 以 
及 模型 过 于 复杂 对 训练 数据 过 度 拟 合 。 


15 如 果 模 型 在 训练 数据 上 表现 很 好 ， 但 是 对 新 实例 的 泛 化 能 力 很 差 
那么 该 模型 很 可 能 过 度 拟 合 训练 数据 (或 者 在 训练 数据 上 运气 大 

好 ) 。 可 能 的 解决 方案 是 ， 获 取 更 多 数据 ， 简 化 模型 (选择 更 简单 的 
算法 、 减 少 使 用 的 参数 或 特征 数量 、 对 模型 正则 化 ) ， 或 者 是 减少 训 
练 数据 中 的 噪声 。 


16. 在 模型 局 动 至 生产 环境 之 前 ， 使 用 测试 集 来 估算 模型 在 新 实例 上 的 
泛 化 误差 。 


18. 如 采 使 用 测试 集 来 调整 超 参 数 ， 会 有 过 度 拟 合 测试 集 的 风险 ， 最 后 
测量 的 泛 化 误差 会 过 于 乐观 《最 后 启动 的 模型 性 能 比 预期 的 要 差 ) 。 


19. 通 过 交叉 验证 技术 ， 可 以 不 需要 单独 的 验证 集 实 现 模型 比较 (用 于 
模型 选择 和 调整 超 参 数 ) 。 这 市 省 了 宝贵 的 训练 数据 。 


第 2 章 : 闻 到 端的 机 器 学 习 项 目 


参见 Jupyter 笔 记 本 : _https://github.com/ageron/handson-ml_ ° 
BIR: 分 类 

参见 Jupyter 笔 记 本 : https://github.com/ageron/handson-ml_ ° 
第 4 章 : 训练 模型 


1. 如 果 训 练 集 有 数 百 万 个 特征 ， 你 可 以 使 用 随机 梯度 下 降 或 者 是 小 批量 
梯度 下 降 ， 如 果 内 存 允 许 ， 甚 至 可 以 使 用 批量 梯度 下 降 。 但 是 由 于 计 
算 复杂 度 随 着 特征 数量 的 增加 而 快速 提升 〈 比 二 次 方 还 高 ) ， 因 此 不 
能 使 用 标准 方程 的 方法 。 


2. 如 琳 训 | 练 集 的 特征 数值 具有 非常 迎 异 的 尺寸 比例 ， 成 本 函数 将 呈现 为 
细 长 的 碗 状 ， 这 导致 梯度 下 降 算 法 将 耗费 很 长 时 间 来 收 你 。 要 解决 这 
个 问题 ， 需 要 在 训练 模型 之 前 先 对 数据 进行 缩放 。 值 得 注意 的 是 ， 使 
用 标准 方程 法 ， 不 经 过 特征 缩放 也 能 正常 工作 。 


3 训练 逻辑 回归 模型 时 ， 梯 度 下 降 不 会 陷入 局 部 最 小 值 ， 因 为 它 的 成 本 
EAEE e 


ARRE ARE) ， 并 且 学 习 率 也 
不 是 太 高 ， 那 么 所 有 梯度 下 降 算 法 都 可 以 接近 全 局 最 优 ， 了 最 终生 成 的 
模型 都 非常 相似 。 但 是 ， 除 非 逐 渐 降 低 学 习 率 ， 否 则 随机 梯度 下 降 和 
小 批量 梯度 下 降 都 不 会 真正 收 公 。 相 反 ， 写 们 会 不 断 在 全 局 最 优 的 附 
近 波 动 。 也 就 是 说 ， 即 使 运行 时 间 非 党 长 ， 这 些 梯度 下 降 算 法 产生 的 
模型 仍然 会 有 轻微 不 同 。 


5. 如 果 验 证 误差 开始 每 轮 上 升 ， 那 么 可 能 性 之 一 是 学 习 率 太 高 ， 算 法 开 
始 发 散 所 致 。 如 有 果 训 练 误差 也 开始 上 升 ， 那 么 很 显然 你 需要 降低 学 习 
率 了 。 但 和 站， 如 有 果 训 练 误 才 没有 上 升 ， 那 么 模型 很 可 能 过 度 拟 合 训练 
集 ， 应 该 立刻 停止 训练 。 


6. 无 论 是 随机 梯度 下 降 还 是 小 批量 梯度 下 降 ， 由 于 它们 的 随机 性 ， 使 得 
它们 部 不 能 体 证 在 每 一 次 的 训练 天 代 中 都 取得 进展 。 所 以 ， 如 果 在 验 
证 误差 刚 开 始 上 升 时 就 停止 训练 ， 很 有 可 能 会 在 达到 最 优 之 前 过 早 停 
止 训 练 。 更 好 的 方法 是 定时 保存 模型 ， 当 较 长 一 段 时 间 痢 没有 改善 时 
(意味 着 可 能 不 会 再 超过 最 好 的 记录 了 ) ， 可 以 恢复 到 保存 的 最 优 模 


型 。 
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以 通常 来 说 ， 它 会 最 快 到 达 全 局 最 优 的 附近 (或 者 十 批量 非常 小 的 小 

批量 梯度 下 降 ) 。 但 是 ， 只 有 批量 梯度 下 降 才 会 经 过 足够 长 时 间 的 训 

练 后 真正 收敛 。 对 于 随机 梯度 下 降 和 小 批量 梯度 下 降 来 说 ， 除 非 逐 渐 

调 低 学 习 率 ， 否 则 将 一 直 围 绕 最 小 值 上 上 下 下 。 


8. 如 有 果 验 证 误 莽 远 高 于 训练 误差 ， 可 能 是 因为 模型 过 度 拟 合 训练 集 。 解 
决 这 个 问题 的 方法 之 一 是 对 多 项 式 降 阶 ， 自 由 度 越 低 的 模型 ， 过 度 拟 

合 的 可 能 性 越 低 。 男 一 个 方法 是 对 模型 进行 正则 化 一 一 例如 ， 在 成 本 

函数 中 增加 2 (WA) 或 1 (Lasso 回 归 ) 惩 加 ， 同 样 可 以 降低 模型 的 
和 目 由 度 。 最 后 ， 你 还 可 以 答 试 扩大 训练 集 。 


9. 如 果 训练 误差 和 验证 误差 相近 ， 并 且 都 非常 高 ， 则 模型 很 可 能 对 训练 
集 拟 合 不 足 。 这 意味 着 偏差 较 高 ， 应 该 尝试 降低 正则 化 超 参数 。 


10. 我 们 来 看 看 : 


有 正则 化 的 模型 通常 比 没有 正则 化 的 模型 表现 得 更 好 ， 所 以 应 该 优先 
选择 怜 回归 而 不 是 普通 的 线性 回归 。 (I 


:Lasso 回 归 使 用 1 惩 神 函数 ， 往 往 倾 辐 于 将 不 重要 的 特征 权重 降 至 零 。 
这 将 生成 一 个 除了 最 重要 的 权重 之 外 ， 其 他 所 有 权重 都 为 零 的 稀 臣 模 
型 。 这 是 目 动 执 行 特征 选择 的 一 种 方法 ， 如 果 你 觉得 只 有 少数 几 个 特 
征 是 真正 重要 的 ， 这 不 失 为 一 个 非常 好 的 选择 ， 但 是 当 您 不 确定 的 时 
候 ， 应 该 更 青睐 岭 回归 模型 。 

.弹性 网 络 比 Lasso 更 受 欢 迎 ， 因 为 某 些 情况 下 Lasso 可 能 异常 表现 
(例如 当 多 个 特征 强 相 关 ， 或 者 特征 数量 比 训练 实例 多 时 ) 。 并 且 ， 
弹性 网 络 会 添加 一 个 额外 的 超 参 数 来 对 模型 进行 调整 。 如 果 你 想 使 用 

Lasso， 只 需要 将 弹性 网 络 的 11_ratio 设 置 为 接近 1 即 可 。 


11. 要 将 图 片 分 类 为 户外 /室内 和 日 天 /人 夜间， 你 应 该 训练 两 个 逻辑 回归 分 
类 器 ， 因 为 这 些 类 别 之 间 并 不 古 排 他 的 (存在 四 种 组 合 ) 。 


12. 参 见 Jupyter 笔 记 本 : _https://github.com/ageron/handson-ml_ ° 


第 5 章 : 文 持 向 量 机 


1. 文 持 问 量 机 的 基本 思想 是 拟 合 类 别 之 间 可 能 的 、 最 锡 的 “街道 ”。 换 言 
之 ， 它 的 目的 是 使 决策 边界 之 间 的 间隔 最 大 化 ， 从 而 分 阳 出 两 个 类 别 

的 训练 实例 。SVM 执 行 软 间隔 分 类 时 ， 实 际 上 是 在 完美 分 类 和 拟 合 最 
宽 的 街道 之 间 进 行 妥协 〈 也 就 是 允许 少数 实例 最 终 还 是 落 在 街道 

E) 。 还 有 一 个 关键 点 是 在 训练 非 线 性 数据 集 时 ， 记 得 使 用 核 画 数 。 


2. 支 持 向 量 机 的 训练 完成 后 ， 位 于 “街道 ” (参考 上 一 个 答案 ) 之 上 的 实 
例 被 称 为 文 择 问 量 ， 这 也 包括 处 于 边界 上 的 实例 。 决 策 边 界 完 全 由 文 
持 向 量 决定 。 非 支持 向 量 的 实例 〈 也 就 是 街道 之 外 的 实例 ) 完全 没有 
任何 影响 ， 你 可 以 选择 删除 它们 然后 添加 更 多 的 实例 ， 或 着 是 将 它们 
移 开 ， 只 要 一 直 在 街道 之 外 ， 它 们 区 ® 不 会 对 决策 边界 产生 任何 影响 。 
计算 预测 结 采 只 会 涉及 文 持 向 量 ， 而 不 涉及 整个 训练 集 。 


3. 文 持 癌 量 机 拟 合 类 别 之 间 可 能 的 、 最 宽 的 “街道 ” (参考 第 一 题 答 
: 所 以 如 果 训 练 集 不 经 缩放 ，SVM 将 趋 于 忽略 值 较 小 的 特征 〈 见 
5-2) ° 
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将 其 用 作 信 心 分数 。 但 是 这 个 分 数 不 能 直接 转化 成 类 别 概率 的 估算 。 
如 果 创 建 SVM 时 ， 在 ScikitrLearn 中 设置 probability=True， 那 么 训练 完 
成 后 ， 算 法 将 使 用 逻辑 回归 对 SVM 分 数 进行 校准 (对 训练 数据 额外 进 
行 5- 折 交叉 验证 的 训练 ) ， 从 而 得 到 概率 值 。 这 会 给 SVM 添加 
predict_proba () 和 predict_log_proba () 两 种 方法 。 


5. 这 个 问题 仅 适 用 于 线性 支持 向 量 机 ， 因 为 核 SVM 只 能 使 用 对 偶 问 
题 。 对 于 SVM 问题 来 说 ， 原 始 形式 的 计算 复杂 度 与 训练 实例 的 数量 成 
正比 ， 而 其 对 偶 形 式 的 计算 复杂 度 与 某 个 介 于 m2 和 m3 之 间 的 数量 成 正 
比 。 所 以 如 果实 例 的 数量 以 百 万 计 ， 一 定 要 使 用 原始 问题 ， 因 为 对 偶 
问题 会 非常 慢 。 

6. 如 果 一 个 使 用 RBF 核 训 练 的 支持 向 量 机 对 训练 集 拟 合 不 足 ， 可 能 是 由 
于 过 度 正 则 化 导致 的 。 您 需要 提升 gamma 或 C (或 同时 提升 二 者 ) 来 降 
低 正则 化 。 

7. 我 们 把 硬 间隔 问题 的 QP 参 数 定义 为 H、f、A' 及 b'。 软 间隔 问题 的 QP 
参数 还 包括 m 个 额外 参数 (n =n+1+m) 及 m 个 额外 约束 (n.=2m) ° 
它们 可 以 这 样 定义 : 


H’ 0 o 
HSS TEMA MADRE A _Em 9! mír O: i f = | 

等 于 有 m 个 附加 元 素 的 f， 全 部 等 于 超 参 数 C 的 值 

b 等 于 有 mm 个 附加 元 素 的 b'"， 全 部 等 于 0 

A 等 于 在 A' 的 右 侧 添 加 一 个 mxm 的 单位 矩阵 1 ， 在 这 个 单位 矩阵 的 正 


A L. | 


A = 
下 方 再 添加 单位 矩阵 -1 ， 剩 余部 分 为 0: p -I, 


对 于 练习 8 至 练习 10 的 解答 ， 参 见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 6 章 : 决策 树 


1 一 个 包 售 m 个 叶 市 点 的 均衡 二 又 树 的 深度 等 于 log，。，(m) QÈ: log, 
表示 以 2 为 底 的 log 函 数 ，log，(m) =log (m) Aog (2) °) WHE 
入 。 通 津 来 说 ， 二 元 决策 树 训练 到 最 后 大 体 都 是 平衡 的 ， 如 果 不 加 以 
限制 ， 最 后 平均 每 个 叶 市 点 一 个 实例 。 因 此 ， 如 果 训 练 集 包 含 一 百 万 
个 实例 ， 那 么 决策 树 深度 约 等 于 log 。 (105) ~20 层 (实际 上 会 更 多 一 
些 ， 因 为 决策 树 通常 不 可 能 完美 平衡 ; 。 


2 一 个 节点 的 基尼 不 纯度 通常 比 其 父 节 点 低 。 这 是 通过 CART 训 练 算法 
的 成 本 函数 确保 的 。 该 算法 分 裂 每 个 节点 的 方法 ， 就 是 使 其 子 节点 的 
基尼 不 纯度 的 加 权 之 和 最 小 。 但是， 如 采 一 个 子 万 点 的 不 纯度 远 小 于 
另 一 个 ， 那 么 也 有 可 能 使 子 节点 的 基尼 不 纯度 比 其 父 节点 高 ， 只 要 那 
个 不 纯度 更 低 的 子 节点 能 够 抵偿 这 个 增加 即 可 。 举 例 来 说 ae 设 一 个 
PARRA ASIEN BASKAR 其 基尼 不 纯度 


5 5 “。 现 在 我 们 假设 数据 集 是 一 维 的 ， 并 且 实 例 的 排列 顺序 
如 下 : A，B，A，A，A。 你 可 以 验证 ， 算 法 将 在 第 二 个 实例 后 拆 分 该 
To, STE BA SF BUT 的 实例 分 别 为 A，B 和 A，A，A。 第 


一 个 子 节点 的 基尼 不 纯度 为 ” TIOS, WEWEEE o DEAN 


第 二 个 子 节点 是 纯 的 ， 所 以 总 的 加 权 基 尼 不 纯度 等 于 ， 3” 3” 
低 于 父 节点 的 基尼 不 纯度 。 


3. 如 果 决 策 树 过 度 拟 合 训练 集 ， 降 低 max_depth 可 能 是 一 个 好 主意 ， 
为 这 会 限制 模型 ， 使 其 正则 化 。 


4. 决 策 树 的 优点 之 一 就 是 它们 不 关心 训练 数据 是 否 缩放 或 是 集中 ， 所 以 
如 采 决 策 树 对 训练 集 拟 合 不 足 ， 缩 放 输 入 特征 不 过 是 浪费 时 间 寺 了 。 


5. 决 策 树 的 训练 复杂 度 为 O (nxmlog (m) ) 。 所 以 ， 如 果 将 训练 集 大 
小 乘 以 10， 训 练 时 间 将 乘 以 K= (nx10mxlog (10m) ) / (nxmxlog 
(m) ) =10xlog (10m) /log (m) 。 如 果 m=1056， 那 么 Ks11.7， 所 以 
训练 1000 万 个 实例 大 约 需 要 11.7 小 时 。 


6. 只 有 当 数 据 集 小 于 数 千 个 实例 时 ， 预 处 理 训练 集 才 可 以 加 速 训 练 。 如 
果 包 含 100000 个 实例 ， 设 置 presort=True 会 显著 减 慢 训练 。 


对 于 练习 7 和 练习 8 的 解答 ， 参 见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml ° 


第 7 章 : 集成 学 习 和 随机 森林 


1. 如 果 你 已 经 训练 了 五 个 不 同 的 模型 ， 并 且 都 达到 了 95 罗 的 精度 ， 你 可 
以 笑 试 将 它们 组 合成 一 个 投票 集成 ， 这 通 弟 会 市 来 更 好 的 结果 。 如 来 
模型 之 间 非 常 不 同 (例如 ， 一 个 SVM 分 类 器 ， 一 个 决策 树 分 类 器 ， 以 
及 一 个 Logistic 回 归 分 类 器 等 ， 则 效果 更 优 。 如 采 它 们 是 在 不 同 的 训 
练 实例 (这 是 bagging 和 pasting 集 成 的 关键 点 ) 上 完成 训练 ， 那 就 更 好 
了 ， 但 如 有 果 不 征 ， 只 要 模型 非常 不 同 ， 这 个 集成 仍然 有 效 。 


2. 便 投票 分 类 絮 只 是 统计 每 个 分 类 句 的 投票 ， 然 后 挑 先 出 得 票 最 多 的 类 
别 。 软 投票 分 类 器 计算 出 每 个 类 别 的 平均 估算 概率 ， 然 后 选 出 概率 最 
高 的 类 别 。 它 比 硬 投票 法 的 表现 更 优 ， 因 为 它 给 予 那些 高 度 自信 的 投 
票 更 高 的 权重 。 但 是 它 要 求 每 个 分 类 句 都 能 够 估算 出 类 别 概率 才 可 以 
正常 工作 (例如 ，Scikit-Leam 中 的 SVM 分 类 器 必须 要 设置 
probability=True) 。 


3. 对 于 bagging 集 成 来 说 ， 将 其 分 布 在 多 个 服务 左上 能 够 有 效 加 速 训练 
过 程 ， 因 为 集成 中 的 每 个 预测 右 都 是 独立 工作 的 。 同 理 ， 对 于 pasting 
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基于 其 前 序 的 结果 ， 因 此 训练 过 程 必须 是 有 序 的 ， 将 其 分 布 在 多 个 服 
务 器 上 毫 无 意义 。 对 于 stacking 集 成 来 说 ， 某 个 指定 层 的 预测 器 之 间 彼 
此 独立 ， 因 而 可 以 在 多 台 服 务 器 上 并 行 训 练 ， 但 是 ， 某 一 层 的 预测 器 
只 能 在 其 前 一 层 的 预测 句 全 部 训练 完成 之 后 ， 才 能 开始 训练 。 


4. 包 外 评估 可 以 对 bagging 集 成 中 的 每 个 预测 占 使 用 其 未 经 训练 的 实例 
进行 评估 。 不 需要 额外 的 验证 集 ， 就 可 以 对 集成 实施 相当 公正 的 评 
估 。 所 以 ， 如 采 训 练 使 用 的 实例 越 多 ， 集 成 的 性 能 可 以 略 有 提升 。 


5. 随 机 森林 在 生长 过 程 中 ， 每 个 下 点 的 分 裂 仅 考虑 到 了 等 征 的 一 个 随机 
子 集 。 极 限 随机 树 也 是 如 此 ， 它 甚至 走 得 更 远 : 各 规 决 策 树 会 搜索 出 
特征 的 最 佳 国 值 ， 极 限 随机 树 直 接 对 每 个 特征 使 用 随机 病 值 。 这 种 极 
限 随机 性 就 像 是 一 种 正则 化 的 形式 : 如 果 随 机 森林 对 训练 数据 出 现 过 
度 拟 合 ， 那 么 极限 随机 树 可 能 执行 效果 更 好 。 更 甚 的 是 ， 极 限 随机 树 
不 需要 计算 最 佳 国 值 ， 因 此 它 训 练 起 来 比 随机 森林 快 得 多 。 但 是 ， 在 
做 预测 的 时 候 ， 相 比 随机 和 森林 它 不 快 也 不 慢 。 


6. 如 末 你 的 AdaBoost 集 成 对 训练 集 拟 合 不 足 ， 可 以 竹 试 提升 信 算 紫 的 数 
ee re eee ner 


7. 如 果 你 的 梯度 提升 集成 对 训练 集 过 度 拟 合 ， 你 应 该 试 着 降低 学 习 率 ， 
也 可 以 通过 后 售 法 来 于 找 合适 的 预测 器 数量 〈 可 能 是 因为 预测 器 太 


多 ) 


对 于 练习 8 和 练习 9 的 解答 ， 参 见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 8 章 : 降 维 
1. 动 机 和 浆 端 : 
: 降 维 的 主要 动机 是 : 


:为 了 加 速 后 续 的 训练 算法 (在 某 些 情况 下 ， 也 可 能 为 了 消除 噪声 和 元 
余 特 征 ， 使 训练 算法 性 能 更 好 


:为 了 将 数据 可 视 化 ， 并 从 中 获得 洞察 ， 了 解 最 重要 的 特征 


\， 可 能 使 后 续 训 练 算法 的 性 能 降低 


:为 机 器 学 习 流水 线 增添 了 些许 复杂 度 
-转换 后 的 特征 往往 难以 解释 


2. 维 度 的 诅咒 是 指 许多 在 低 维 空间 中 不 存在 的 问题 ， 在 高 维 空间 中 发 
生 。 在 机 器 学 习 领 域 ， 一 个 彰 见 的 现象 是 随机 抽样 的 高 维 向 量 通常 非 
常 稀 玩 ， 提 升 了 过 度 拟 合 的 风险 ， 同 时 也 使 得 在 没有 充足 训练 数据 的 
情况 下 ， 要 识别 数据 中 的 模式 非 第 困难 。 


3 一 旦 使 用 我 们 讨论 的 任意 算法 减少 了 数据 集 的 维度 ， 几 乎 不 可 能 再 将 
操作 完美 地 逆转 ， 因 为 在 降 维 过 程 中 必然 丢失 了 一 部 分 信息 。 虽 然 有 
一 些 算法 (例如 PCA) 拥有 简单 的 逆转 换 过 程 ， 可 以 重建 出 与 原始 数 
据 集 相似 的 数据 集 ， 但 是 也 有 一 些 算法 不 能 实现 逆转 (例如 ISNE) ° 


4. 对 大 多 数 数据 集 来 说 ，PCA 可 以 用 来 进行 显著 降 维 ， 即 便 是 高 度 非 线 
性 的 数据 集 ， 因 为 它 至 少 可 以 消除 无 用 的 维度 。 但 是 如 果 不 存在 无 用 
的 维度 〈 例 如 瑞士 卷 ) ， 那 么 使 用 PCA 降 维 将 会 损失 太 多 信息 。 你 希 
望 的 是 将 瑞士 卷 展 开 ， 而 不 是 将 其 压 局 。 


5. 这 是 个 不 好 回答 的 问题 ， 它 取决 于 数据 集 。 我 们 来 看 看 两 个 极 问 的 例 
子 。 目 先 ， 假 设 数据 集 是 由 几乎 完全 对 齐 的 点 组 成 的 ， 在 这 种 情况 

下 ，PCA 可 以 将 数据 集 降 至 一 维 ， 同 时 保留 95% 的 差异 性 。 现 在 ， 试 想 
数据 集 由 完全 随机 的 点 组 成 ， 分 散在 1000 个 维度 上 ， 在 这 种 情况 下 ， 
需要 在 1000 个 维度 上 保留 95% 的 差异 性 。 所 以 ， 这 个 问题 的 答案 是 : 取 
决 于 数据 集 ， 它 可 能 是 1 到 1000 之 间 的 任何 数字 。 将 解释 方差 绘制 成 关 
于 维度 数量 的 函数 ， 可 以 对 数据 集 的 内 在 维度 获得 一 个 粗略 的 概念 。 


6. 香 规 PCA 是 稚 认 选择 ， 但 是 它 仅 适用 于 内 存 足 够 处 理 训练 集 的 时 候 。 
增 量 PCA 对 于 内 存 无 法 文 持 的 大 型 数据 集 非 常 有 用 ， 但 是 它 比 种 规 
PCA 要 来 得 慢 一 些 ， 所 以 如 末 内 存 能 够 支持 ， 还 是 应 该 使 用 前 规 
PCA。 当 你 需要 随时 应 用 PCA 来 处 理 每 次 新 增 的 实例 时 ， 增 量 PCA 对 于 


在 线 任务 同样 有 用 。 当 你 想 大 大 降低 维度 数量 ， 并 且 内 存 能 够 文 持 数 
据 集 时 ， 使 用 随机 PCA 非 单 有 效 ， 它 比 第 规 PCA 快 得 多 。 最 后 对 于 非 
线性 数据 集 ， 使 用 核 化 PCA 行 之 有 效 。 


7. 直 观 来 说 ， 如 果 降 维 算法 能 够 消除 许多 维度 并 且 不 会 丢失 太 多 信息 ， 
那么 这 束 算 一 个 好 的 降 维 算法 。 进 行 衡 量 的 方法 之 一 十 应 用 逆转 换 然 
后 测量 重建 误差 。 然 而 并 不 是 所 有 的 降 维 算法 都 提供 了 逆转 换 。 还 有 
另 一 种 选择 ， 如 果 你 将 降 维 当 作 一 个 预 处 理 过 程 ， 用 在 其 他 机 瑚 学 习 
算法 (比如 随机 森林 分 类 器 ) 之 前 ， 那 么 可 以 通过 简单 测量 第 二 个 算 
法 的 性 能 来 进行 评 佑 。 如 采 降 维 过 程 没有 损失 太 多 信息 ， 那 么 第 二 个 
算法 的 性 能 应 该 跟 使 用 原始 数据 集 一 样 好 。 


8. 链 接 两 个 不 同 的 降 维 算法 绝对 是 有 意义 的 。 常 见 的 例子 是 使 用 PCA 快 
速 去 除 大 量 无 用 的 维度 ， 然 后 应 用 为 一 种 更 慢 的 降 维 算法 ， 如 LLE。 这 
PEPE AER EIER ES DUSCILLEAE Te, (Ee PY] Seat 


a7 


对 于 练习 9 和 练习 10 的 解答 ， 参 见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 9 章 : 运行 TensorFlow 

1. 创 建 计算 图 而 不 是 直接 计算 的 主要 优 缺 点 是 什么 9 
:主要 优点 : 

"TensorFlow 可 以 自动 计算 梯度 (通过 反 向 的 autodiff) 。 
“TensorFlow 负 责 在 不 同 的 线程 中 并 行 执 行 各 个 操作 。 

' 它 可 以 更 容易 地 在 多 设备 上 运行 同一 个 模型 。 

: 它 简 化 了 查看 ， 比 如 ， 在 TensorBoard 上 查看 模型 。 
.主要 缺点 : 

学 习 曲 线 陡 峭 。 

:逐步 的 调试 比较 困难 。 


2. 是 的 ， 语 句 a_val=a.eval (session=sess) 和 a_val=sess.run (a) 完全 相 
Ba 
’ 


3.i6Ja_val, b_val=a.eval (session=sess) , b.eval (ses sion=sess) 不 等 
Fa_val, b_val=sess.run ([a, b] 。 第 一 条 语句 会 运行 两 次 (第 一 次 计 
算 a， 第 二 次 计算 b) ， 而 第 二 条 语句 只 运行 一 次 。 如 果 这 些 操作 (或 
者 它们 依赖 的 操作 ) 中 的 任意 一 个 具有 副作用 (比如 ， 修 改 一 个 变 
量 ， 向 队列 中 插入 一 条 记录 ， 或 者 读 取 一 个 文件 等 ， 那 么 效果 就 会 
不 同 。 如 果 操 作 没 有 副作用 ， 那 么 语句 会 返回 同样 的 结果 ， 不 过 第 二 


条 语句 会 比 第 一 条 快 。 


le 同一 个 会 话 中 运行 两 个 计算 图 。 你 需要 将 两 个 图 合并 为 一 个 


5. 在 本 地 TensorFlow 中 ， 会 话 用 来 管理 变量 的 值 ， 如 果 你 创建 了 一 个 包 
伟 变 量 w 的 图 g， 然 后 启动 两 个 线程 ， 并 在 每 个 线程 中 打开 一 个 本 地 的 
会 话 ， 这 两 个 线程 使 用 同一 个 图 g， 那 么 每 个 会 话 会 拥有 上 自己 的 w 的 找 
贝 。 如 果 在 分 布 式 的 TensorFlow 中 ， 变 量 的 值 则 存储 在 由 集群 管理 的 容 
右 中 ， 如 果 两 个 会 话 连 接 了 同一 个 集群 ， 并 使 用 同一 个 容 右 ， 那 么 它 


们 会 共享 变量 w。 


6 变量 在 调用 其 初始 化 器 的 时 候 被 初始 化 ， 在 会 话 结束 的 时 候 被 销毁 。 
在 分 布 式 TensorFlow 中 ， 变 量 存活 于 集群 上 的 容器 中 ， 所 以 关闭 一 个 会 
话 不 会 销毁 变量 。 要 销毁 一 个 变量 ， 你 需要 清空 它 所 在 的 容器 。 


7. 变 量 和 占 位 符 完 全 不 同 ， 不 过 初学 者 往往 会 混 请 它们 : 


-变量 是 包含 一 个 值 的 操作 。 你 执行 一 个 变量 ， 它 会 返回 对 应 的 值 。 在 
执行 之 前 ， 你 需要 初始 化 变量 。 你 可 以 修改 变量 的 值 〈 比 如， 通过 使 
用 赋值 操作 ) 。 变 量 有 状态 ， 在 连续 运行 图 时 ， 变 量 保持 相同 的 值 。 
通 汝 它 被 用 作 保 存 模型 的 参数 ， 不 过 也 可 以 用 作 其 他 用 途 比如， 对 
全 局 训练 的 步 数 进行 计数 ) 。 


: 占 位 待 则 只 能 做 很 少 的 事 儿 : 它们 只 有 其 所 代表 的 张 量 的 类 型 和 形状 
的 信息 ， 但 没有 值 。 事 实 上 ， 如 来 你 要 对 一 个 依赖 于 占 位 符 的 操作 进 
行 求 值 ， 你 必须 先 为 其 传 值 (通过 feed_dict) ， 否 则 你 会 得 到 一 个 异 


常 。 占 位 符 通 常 在 被 用 作 在 执行 期 为 训练 或 者 测试 数据 传 值 。 在 将 值 


J So a 
和 


8. 如 来 运行 计算 图 来 求 值 一 个 依赖 于 占 位 符 的 操作 ， 但 不 提供 值 ， 则 会 
发 生 异 钊 。 如 采 操 作 不 依赖 于 占 位 符 ， 则 不 会 引发 异 币 。 


9. 当 你 运行 一 个 图 时 ， 可 以 提供 任何 操作 的 输出 值 ， 而 不 仅仅 是 占 位 符 
的 值 。 在 实践 中 ， 这 种 情况 很 少见 《有 时 候 会 是 有 用 的 ， 比 如 你 要 缓 
存 冷冻 层 的 输出 时 ， 详 见 第 11 章 ) 。 


10. 你 可 以 在 构造 一 个 图 时 指定 变量 的 初始 值 ， 它 会 在 后 边 的 执行 期 运 
行 变量 初始 化 器 的 时 候 被 初始 化 。 如 果 你 想 在 执行 期 修改 变量 的 值 ， 

那么 最 简单 的 方式 是 使 用 tt.assign 函 数 创建 一 个 赋值 节点 (在 图 的 构造 
期 ) ， 将 变量 和 一 个 占 位 符 传 入 作为 参数 。 这 样 ， 你 可 以 在 执行 期 运 
行 复 制 操 作 来 为 变量 传 入 新 值 。 


import tensorflow as tf 


x = tf.Variable(tf.random_uniform(shape=(), minval=0.0, maxval=1.0)) 


x_new_val = tf.placeholder(shape=(), dtype=tf.float32) 


x_assign = tf.assign(x, x_new_val) 


with tf.Session(): 


X.initializer.run() # random number is sampled *now* 


print(x.eval()) # 0.646157 (some random number) 


x_assign.eval(feed_dict={x_new_val: 5.0}) 


print(x.eval()) # 5.0 


11. 要 计算 任意 数量 变量 的 成 本 函数 的 梯度 ， 反 辐 模 式 的 autodiff 算 法 
(由 TensorFlow 实 现 ) 只 需要 遍历 两 次 图 。 作 为 对 比 ， 正 向 模式 的 
autodiff 算 法 需要 为 每 个 变量 运行 一 次 (如 果 我 们 需要 10 个 不 同 变 量 的 
梯度 ， 那 么 就 需要 执行 10 次 ) 。 对 于 符号 微分 ， 它 会 建立 一 个 不 同 的 
图 来 计算 梯度 ， 所 以 根本 不 会 遍历 原来 的 图 (除了 在 建立 新 的 梯度 图 
时 ) 。 一 个 高 度 优化 的 符号 微分 系统 可 能 只 需要 运行 一 次 新 的 梯度 图 
来 计算 和 所 有 变量 相关 的 梯度 ， 但 与 原始 图 相 比 ， 新 的 图 可 能 是 非常 

复杂 和 低 效 的 。 


12. 见 https:Wgithub.comy/ageron/handson-ml 的 Jupyter 笔记 本 。 
第 10 草 : 人 工 神经 网 络 简介 


1. 这 是 基于 原生 人 造 神经 元 来 计算 A@B (@ 表 示 计 算 异 或 ) 的 神经 网 
络 ，A@B= (AA 1B) v ( 1AAB) 。 当 然 还 有 其 他 做 法 ， 比 如 使 
用 A@B= (AvB) a 1 (AAB) ,或 者 A@B= (AvB) a ( ! 
AVAB) ， 等 等 。 


(E) ECVDzAeB 


,A=AND "=NOT | 
D="AAB 'V=OR ®=XOR | 


2. 经 典 的 感知 器 只 有 在 数据 集 是 线性 可 分 的 情况 下 才 会 收敛 ， 并 且 不 能 
估计 分 类 的 概率 。 作 为 对 比 ， 逻 辑 回 归 分 类 器 即使 在 数据 集 不 古 线 性 
可 分 的 情况 下 也 可 以 很 好 地 收敛 ， 而 且 还 能 输出 分 类 的 概率 。 如 有 果 你 
将 感知 器 的 激活 函数 修改 为 逻辑 激活 函数 (或 者 如 果 有 多 个 神经 元 的 
时 候 ， 采 用 softmax 激 活 函 数 ) ， 然 后 训练 其 使 用 梯度 下 降 (或 者 使 成 


ANA BUY] MCA EEG, ES MIE). HPAES 
BE Pie Fa BVA ap Ras T° 


3.12 FART EN Be VISES —-SMLPA REA, AA EAS OL eR 
的 ， 所 以 柳 度 下 降 总 是 可 以 持 答 的 。 当 激活 功能 是 一 个 阶 棉 函 数 时 ， 
渐变 下 降 束 不 能 再 持续 了 ， 因 为 这 时 候 根 本 没有 和 斜率。 


4. 阶 标 函 数 、 逻 辑 画 数 、 双 曲 正 切 、 线 性 整流 函数 ， 如 图 10-8 所 示 。 有 
关 其 他 示例 ， 请 参阅 第 11 章 ， 例 如 ELU 和 ReLU 的 其 他 变 体 。 


5. 考 虑 问题 中 插 述 的 MLP: 假设 你 有 这 样 一 个 MLP， 其 输入 层 由 10 个 透 
传神 经 元 组 成 ， 然 后 是 一 个 隐藏 屋 ， 有 50 个 人 造 神 经 元 ， 最 后 是 一 个 
Ee te Jen eee Rane 


.输入 矩阵 X 的 形状 是 mx10， 其 中 四 代表 训练 批量 的 大 小 。 
.隐藏 层 的 权 向 量 W， 的 形状 为 10x50， 其 偏向 量 b; 的 长 度 为 50。 
-输出 层 的 权 向 量 W ,的 形状 为 50x3， 其 偏向 量 b ,的 长 度 为 3。 
-输出 矩阵 Y 的 形状 是 mx3 。 


Y= (X-W,+b,) :Wo。+b。。 注 意 ， 当 你 将 一 个 偏向 量 添加 到 一 个 矩 隆 
时 ， 它 将 被 添加 到 和 矩阵 中 的 每 一 行 ， 这 就 是 所 谓 的 广播 。 


6. 要 将 电子 邮件 分 类 为 垃圾 邮件 和 正常 邮件 ， 你 只 需要 在 神经 网 络 的 输 
出 层 中 使 用 一 个 神经 元 ， 例 如 ， 指 出 电子 邮件 是 垃圾 邮件 的 概率 。 舍 
算 概率 时 ， 通 常会 在 输出 层 使 用 逻辑 激活 函数 。 如 果 你 想 要 解决 
MNIST 问 题 ， 则 需要 输出 层 中 有 10 个 神经 元 ， 并 且 必 须 用 可 以 处 理 多 
个 分 类 的 softmax 激 活 画 数 替换 逻辑 男 数 ， 为 每 个 分 类 输出 一 个 概率 。 
如 采 你 想 让 你 的 神经 网 络 像 第 2 章 那 样 预测 房价 ， 那 么 你 需要 一 个 输出 
神经 元 ， 而 在 输出 层 则 无 须 使 用 激活 函数 。 卫 


7. 反 向 传播 是 一 种 用 于 训练 人 工 神经 网 络 的 技术 。 它 首先 计算 关于 每 个 
模型 参数 (所 有 的 权重 和 偏差 ， 的 成 本 函数 的 梯度 ， 然 后 使 用 这 些 梯 
度 执 行 梯度 下 降 。 这 种 反 向 传播 步 又 通常 执行 数 千 次 或 数 百 万 次 ， 并 
需要 多 个 训练 批 次 ， 直 到 模型 参数 收敛 到 最 小 化 成 本 函数 的 值 为 止 。 


为 了 计算 梯度 ， 反 向 传播 使 用 反 向 模式 autodiff (尽管 在 反 向 传播 被 发 
明 的 时 候 还 不 叫 autodiff， 事 实 上 autodiff 的 概念 已 经 被 重新 发 明了 多 
次 ) 。 反 向 模式 的 autodif 会 先 在 计算 图 上 正 向 执行 一 次 ,计算 当 前 训 
练 批 次 的 每 个 节点 的 值 ， 然 后 反 回 执行 一 次 ， 一 次 性 计算 所 有 梯度 

( 详 见 附录 D) 。 那 和 反 向 传播 有 什么 区 别 呢 ? 反 向 传播 是 指使 用 多 个 
反 向 传播 步骤 来 训练 人 工 神 经 网 络 的 全 部 过 程 ， 每 个 步骤 计算 梯度 并 
使 用 它们 执行 梯度 下 降 过 程 。 相 反 ， 反 癌 模 式 autodiff 只 是 一 种 简单 的 
计算 梯度 的 技术 ， 只 是 恰好 被 反 向 传播 使 用 了 而 已 。 


8. 这 里 列 出 了 所 有 可 以 在 基本 MLP 中 调整 的 超 参数 : 隐藏 层 的 数量 ， 每 
个 隐藏 层 中 神经 元 的 数量 ， 以 及 每 个 隐藏 层 和 输出 层 中 使 用 的 激活 画 

数 。 上 一 般 情 况 下 ，ReLU 激 活 函 数 (或 其 中 的 一 个 变 体 ， 请 参阅 第 11 
章 ) 是 隐藏 层 的 一 个 很 好 的 默认 值 。 对 于 输出 层 ， 通 常 需要 二 分 分 类 

人 

n Ura EK BX e 


如 采 MLP 对 训练 数据 有 过 度 拟 合 ， 可 以 笑 试 减少 隐藏 层 的 数量 ， 并 减 
少 每 个 隐藏 层 的 神经 元 数量 。 


9. 见 _https://github.com/ageron/handson-ml#‘JJupyter 笔记 本 。 
第 11 章 : 训练 深度 神经 网 络 


1. 不 ， 所 有 权重 需要 独立 处 理 ， 它 们 不 可 以 初始 化 为 统一 值 。 随 机 取样 
权重 一 个 重要 的 目的 是 破坏 对 称 性 : 如 果 所 有 的 权重 具有 相同 的 初始 
值 ， 即 使 该 值 不 为 0， 对 称 性 也 无 法 被 破坏 ( 即 一 层 中 所 有 人 神经 元 都 是 
一 样 的 ) ， 并 且 反 向 传播 将 无 法 破坏 它 。 具 体 来 说 ， 这 就 意味 着 一 层 
中 所 有 神经 元 始终 保持 相同 的 权重 。 束 像 每 层 只 有 一 个 神经 元 ， 而 且 
要 慢 得 多 。 这 样 的 配置 足 无 法 收敛 到 一 个 好 的 解决 方案 的 。 


2. 当 然 可 以 设置 为 0。 有 些 人 喜欢 像 初始 化 权重 一 样 处 理 偏差 项 ， 这 样 
也 是 可 以 的 ， 没 有 太 大 的 区 别 。 

3.ELU 相 对 于 ReLU 的 几 个 优势 : 

' 它 可 以 使 用 负 值 ， 所 以 相 比 使 用 ReLU 激 活 方程 《从 不 输出 负 值 ) . 
oe eee 
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总 是 有 一 个 非 零 的 导数 ， 可 以 避免 影响 ReLU 单 元 的 单元 消失 问题 。 


人 
它 在 任何 地 方 都 是 平滑 的 ， 而 在 z=0 时 ，ReLU 的 梯度 突然 从 0 跳 至 1 。 
这 个 突然 的 变化 会 引起 在 z=0 附 近 摆动 ， 从 而 可 以 缓解 梯度 下 降 。 


4.ELU 激 活 函 数 是 一 个 不 错 的 默认 选择 。 如 果 对 神经 网 络 的 速度 要 求 很 
高 ， 可 以 用 leaky ReLU 的 一 个 变种 (即使 用 默认 超 参 数值 的 leaky 
ReLU) 。 这 是 因为 ReLU 激 活 函 数 简 单方 便 ， 所 以 很 多 人 会 将 其 作为 
首选 ， 即 使 输出 表现 会 被 ELU 和 leaky ReLU 超 过 。 但 是 ， 某 些 情况 下 ， 
ReLU 激 活 函 数 的 精确 输出 能 力 是 有 用 的 〈 见 第 15 章 ) 。 如 果 你 需要 输 
出 一 个 介 于 -1 和 1 之 间 的 数 ，tanh 在 输出 层 会 比较 有 效 ， 但 是 现在 在 隐 
汤 层 的 使 用 频 度 并 不 高 。 在 你 需要 评估 可 能 性 (比如 二 进 制 分 类 ) 

上 时， 逻辑 激活 函数 在 输出 层 比 较 有 效 ， 但 是 同样 在 隐藏 层 中 很 少 使 用 
(也 有 例外 ， 比 如 ， 变 分 自动 编码 器 的 编码 层 ， 见 第 15 章 ) 。 最 后 
softmax 激 活 函 数 在 输出 层 输出 互相 排斥 类 的 概率 是 有 效 的 ， 但 是 除了 

(或 者 曾经 ) 隐藏 层 以 外 基本 不 使 用 。 


5. 如 采 使 用 MomentumOptimizer 时 ， 将 动量 超 参 数 设 置 得 太 接 近 1 ( 比 
如 : 0.99999) ， 算 法 就 会 提速 很 高 ， 偏 向 全 局 最 小 值 ， 但 是 接着 会 经 
过 最 小 值 。 之 后 束 会 慢 慢 降 速 回落 ， 再 加 速 ， 再 超 调 ， 循 环 往复 。 这 
种 方式 在 收敛 前 会 振荡 好 儿 次 ， 所 以 总 体 来 说 ， 收 敛 速度 会 比 用 小 动 
量 慢 。 

6. 一 种 实现 稀 芷 模型 的 方法 〈 即 大 多 数 权重 等 于 0) 是 正常 训练 一 个 模 
型 ， 然 后 将 小 权重 设置 为 0。 为 了 更 稀 臣 ， 可 以 在 训练 过 程 中 应 用 1 正 
则 化 ， 这 样 可 以 促使 优化 器 更 加 稀 踊 。 第 三 种 方式 是 使 用 TensorFlow 的 
FTRLOptimizer 类 将 1 正则 化 和 对 偶 平 均 相 结合 。 


7. 是 的 ， dropout 会 减 慢 训 练 速度 ， 一 般 降 为 原 速 度 的 一 半 。 但 是 ， 因 为 
只 是 在 训练 期 间 使 用 所 以 对 于 预测 没有 影响 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml] ° 


第 12 章 : 跨 设备 和 服务 器 的 分 布 式 TensorFlow 


1. 当 TensorFlow 进 程 启 动 时 ， 会 抓 取 所 有 可 见 的 GPU 设 备 上 的 所 有 可 用 
内 存 ， 所 以 如 果 在 启动 TensorFlow 程 序 时 得 到 一 个 
CUDA ERROR OUT_OF MEMORY， 这 可 能 意味 着 其 他 正在 运行 的 


进程 已 经 占用 至 少 一 个 可 见 的 GPU 设备 的 所 有 内 存 (最 有 可 能 是 男 一 
个 TensorFlow 进 程 ) 。 为 了 解决 这 个 问题 ， 一 个 简单 的 解决 方案 是 停止 
其 他 进程 ， 然 后 重 试 。 但 是 ， 如 果 你 需要 同时 运行 所 有 的 进程 ， 一 个 
简单 的 方法 是 通过 为 每 个 设备 适当 地 设置 CUDA_VISIBLE_DEVICES 
环境 变量 来 为 每 个 进程 分 配 不 同 的 设备 。 男 一 个 方法 是 通过 创建 一 个 
ConfigProto, 1<‘4.gpu_options.per_process_gpu_memory_fraction VE M. 
该 占用 的 总 内 存 的 比例 (例如 0.4) ， 来 配置 TensorFlow 只 抓 取 GPU 内 
存 的 一 部 分 ， 而 不 抓 取 所 有 的 内 存 ， 并 在 打开 会 话 时 使 用 此 
ConfigProto。 最 后 一 个 方法 是 让 TensorFlow 只 在 需要 的 时 候 抓 取 内 存 ， 
可 以 通过 设置 gpu_options.allow_growth 为 True 来 实现 。 但 是 ， 最 后 一 个 
方法 平时 并 不 推荐 ， 因 为 TensorFlow 抓 取 的 内 存 并 不 释放 ， 而 且 很 难保 
证 是 一 个 重复 性 的 行为 〈 可 能 会 有 一 些 竞争 条 件 ， 具 体 取 决 于 哪些 进 
程 先 开始 ， 训 练 中 需要 多 少 内 存 ， 等 等 ) 。 


2. 通 过 固定 一 个 操作 在 一 个 设备 上 ， 其 实 就 是 告诉 TensorFlow 你 希望 这 
个 操作 在 这 里 进行 。 但 是 ， 有 些 限制 条 件 可 能 会 阻止 TensorFlow 啊 应 你 
的 请 求 。 举 个 例子 ， 可 能 是 没有 针对 该 特定 类 型 的 设备 的 实现 的 操作 

( 称 为 内 核 ) 。 在 这 种 情况 下 ，TensorFlow 默 认 会 引发 异常 ， 但 是 你 可 
以 将 其 配置 回 CPU 〈 这 称 为 软 配置 ) 。 另 一 个 例子 是 可 以 修改 变量 的 
操作 ， 这 个 操作 和 变量 需要 配置 在 一 起 。 所 以 固定 操作 和 放置 操作 之 
间 的 区 别 在 于 ， 国 定 是 你 告知 TensorFlow (“请 将 此 操作 放 在 GPU#1 
E”) ; 而 放置 是 TensorFlow 实 际 上 最 终 做 的 事情 〈“ 对 不 起 ， 退 回 到 
CPU”) ° 


3. 当 你 正在 运行 一 个 支持 GPU 的 TensorFlow 的 安装 过 程 ， 而 且 使 用 的 是 
默认 配置 ， 如 果 所 有 操作 有 一 个 GPU 内 核 〈 即 一 个 GPU 实现 ) , Bf 
么 ， 它 们 会 全 部 被 放置 在 第 一 个 GPU _ 上。 但 是 ， 如 果 一 个 或 多 个 操作 
没有 GPU 内 核 ， 默 认 情 况 下 TensorFlow 会 抛 出 异常 。 如 果 你 设置 
TensorFlow 回 退 到 CPU 〈 软 配置 ) ， 那 么 所 有 操作 会 被 放置 在 除去 所 有 
Sp ee 包括 这 些 操作 之 前 所 有 的 配置 ( 见 之 
前 练习 的 答案 ) 。 


4. 是 的 ， 如 果 你 固定 一 个 变量 到 "/gpu: 0"， 它 可 以 被 /gpu: 1 上 放置 的 
操作 使 用 。TensorFlow 会 自动 处 理 添加 适当 操作 以 跨 设 备 传输 变量 值 。 
对 于 跨 服务 器 的 设备 也 是 一 样 (只 要 它们 还 是 统一 集群 的 一 部 分 ) 。 


5. 是 的 ， 同 一 设备 上 的 两 个 操作 可 以 并 行 运行 : 只 要 没有 操作 需要 依赖 
男 一 个 操作 的 输出 ，TensorFlow 束 会 自动 处 理 并 行 的 操作 (在 不 同 的 


CPU 内 核 或 不 同 GPU 线 程 中 ) 。 另 外 ， 你 可 以 在 并 行 的 线程 (或 进 
程 ) 中 局 动 多 个 会 话 ， 评 佑 每 一 个 线程 的 操作 。 因 为 会 话 都 是 独立 
a Sie ee 以 及 其 他 会 话 
9 任 一 操作 。 


6. 如 果 你 想 推迟 一 个 操作 X 直 到 其 他 一 些 操作 被 执行 之 后 再 执行 ， 即 使 
这 些 操作 不 需要 计算 X， 那 么 你 就 需要 使 用 控制 依赖 。 探 制 依赖 在 以 下 
几 种 场合 比较 有 用 : 当 X 占 用 大 量 内 存 ， 并 且 你 只 是 在 计算 图 形 时 才 需 
要 它 的 时 候 ; 或 者 是 当 X 使 用 了 大 量 IO (例如 ， 它 需要 大 量 位 于 不 同 

设备 或 服务 器 的 变量 值 ) ， 但 是 并 不 需要 作为 其 他 MO 饥 钱 操作 同时 运 
行 的 时 候 ， 可 以 用 它 避 免 市 宽 饮 和。 

7. 你 很 和 位 运 ! 在 分 布 式 TensorFlow 中 ， 变 量 值 位 于 集群 管理 的 容器 中 ， 

所 以 即使 你 关闭 了 会 话 退 出 了 客户 端 程序 ， 模 型 参数 依然 会 保存 在 集 

群 中 。 你 只 需 开 局 一 个 新 会 话 到 集群 保存 模型 即 可 (确保 不 调用 变量 

初始 值 或 恢复 之 前 的 模型 ， 因 为 这 样 会 影响 你 的 新 模型 ! ) 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 13 章 : 卷 积 神经 网 络 


pale 相对 于 全 连接 DNN，CNN 的 主要 优点 有 以 下 几 个 方 


-由 于 连续 层 只 是 部 分 连接 的 ， 并 且 高 度 重 复 使 用 其 权重 ，CNN 的 参数 
比 全 连接 的 DNN 少 ， 这 使 得 它 的 训练 速度 更 快 ， 减 小 了 过 度 拟 合 的 风 
险 ， 并 且 需 要 更 少 的 训练 数据 。 


当 CNN 学 会 检查 菏 个 特定 特征 的 方法 时 ， 它 可 以 在 图 片 的 任何 部 分 检 
测 到 该 特征。 相反 ，DNN 学 习 到 某 个 位 置 的 特征 时 ， 它 只 能 在 特定 位 
置 上 检测 到 该 特征 。 因 为 图 像 通知 具有 非常 复杂 的 特征 ， 所 以 在 图 像 
n 例如 图 像 分 类 ，CNN 更 好 推广 ， 它 使 用 更 少 的 训练 样 


最 后 ，DNN 没 有 关于 像素 是 如 何 组 织 的 先 验 知识 ; 它 不 知道 附近 的 像 
素 是 否 接 近 。CNN 的 架构 租 入 了 这 个 先 验 知识 。 低 层 通 常识 别 图 像 小 
区 域 的 特征 ， 同 时 高 层 将 低层 识别 的 特征 组 合 为 大 特征 。 这 在 大 多 数 
目 然 图 片 中 都 可 以 很 好 地 工作 ， 使 得 CNN 明 显 领先 于 DNN 。 


2. 我 们 来 计算 一 个 CNN 有 多 少 参 数 。 因 为 第 一 个 卷 积 层 有 3x3 的 内 核 ， 
并 且 输 入 有 3 个 通道 ( 红 、 绿 、 蓝 ) ， 然 后 每 个 特征 图 具有 3x3x3 的 权 
重 ， 加 上 偏差 和 系数。 这样， 每 个 特征 图 有 28 个 参数 。 因 为 第 一 个 卷 积 
层 有 100 个 特征 图 ， 所 以 它 总 共有 2800 个 参数 。 第 二 个 卷 积 层 有 3x3 的 
内 核 ， 其 输入 是 上 一 层 100 个 特征 图 的 集合 ， 所 以 每 个 特征 图 有 
3x3x100=900 的 权重 ， 加 上 偏差 系数 。 因 为 它 有 200 个 特征 图 ， 所 以 该 
层 共 有 901x200=180200 个 参数 。 最 后 ， 第 三 个 卷 积 层 同 样 有 3x3 的 内 
核 ， 其 输入 是 上 一 层 200 个 特征 图 的 集合 ， 所 以 每 个 特征 图 有 
3x200=1800 的 权重 ， 加 上 偏差 系数 。 因 为 它 有 400 个 特征 图 ， 所 以 该 层 
共有 1801x400=720400 个 参数 。 该 CNN 总 共有 
2800+180200+720400=903400 个 参数 。 


现在 我 们 来 计算 一 下 该 神经 网 络 对 单个 实例 进行 预测 时 (至 少 ) 需要 
的 内 存 。 首 先 计算 一 下 每 层 特征 图 的 大 小 。 因 为 我 们 的 步 幅 为 2， 并 用 
SAME 填 充 ， 每 层 特征 图 的 水 平和 垂直 大 小 除 以 2 GRE, MES 
入 ) ， 所 以 输入 通道 有 200x300 像 素 ， 第 一 层 特征 图 是 100x150， 第 二 
层 特 征 图 是 50x75， 第 三 层 特征 图 是 25x38。 因 为 32bits 是 4bytes， 并 且 
第 一 个 着 积 层 有 100 个 特征 图 ， 所 以 第 一 层 占 用 4x100x150x100=600 万 
byte ( 约 5.7MB，1MB=1024KB，1KB=1024byte) 。 第 二 层 大 概 占用 
4x50x75x200=300 万 byte ( 约 2.9MB) 。 最 后 ， 第 三 层 大 约 占用 
Ax25x38x400=1520000byte ( 约 1.4MB) 。 然 而 ,一旦 计算 完 一 层 ， 就 
可 以 释放 前 一 层 占 用 的 内 存 ， 所 以 如 有 果 所 有 事情 都 是 最 优 ， 只 需要 大 
约 6+9=1500 万 byte ( 约 14.3MB) 的 内 存 〈 当 第 二 层 计算 完 ， 第 一 层 的 
内 存 还 没有 被 释放 ) 。 但 是 等 等 ， 我 们 还 需要 添加 CNN 参 数 所 占 的 内 
存 。 前 面 计算 过 它 有 903400 个 参数 ， 每 个 参数 使 用 4byte， 所 以 需要 添 
人 ( 约 3.4MB) 。 至 少 所 需 的 内 存 总 共 是 18613600byte (24) 
17.8MB) 。 


最 后 我 们 来 计算 一 下 当 训 练 一 个 mini-batch 为 50 张 图 像 的 CNN 时 需要 的 
最 小 内 存 。 训 练 期 间 ，TensorFlow 使 用 反 向 传播 ， 它 需要 在 反 回 传播 开 
台 前 保存 所 有 正 癌 传播 期 间 计算 的 值 。 所 以 ， 我 们 必须 计算 一 个 实例 
的 所 有 层 需 要 的 总 内 存 ， 并 乘 以 50! 基于 这 一 点 ， 我 们 需要 计算 
megabyte 而 不 是 byte。 之 前 已 经 计算 过 ， 对 于 每 个 实例 ， 三 层 各 需要 
5.7MB、2.9MB 和 1.4MB。 每 个 实例 共 10.0MB。 所 以 到 目前 为 止 ，50 个 
实例 共 需 500MB 内 存 。 加 上 输入 图 片 需 要 的 50x4x200x300x3=3600 万 
byte (大 约 34.3MB) 内 存 ， 加 上 模型 参数 需要 的 3.4MB (之 前 计算 的 ) 
内 存 ， 加 上 梯度 需要 的 一 些 内 存 (我 们 将 其 名 略 ， 因 为 在 反问 传播 期 


间 ， 其 内 存 会 因为 反 向 传播 而 逐步 释放 ) 。 大 概 需要 的 总 内 存 为 
500+34.3+3.4=537.7MB。 这 是 一 个 乐观 的 最 低 值 。 


3. 如 果 GPU 在 训练 CNN 期 间 内 存 液 出， 可 以 做 如 下 5 件 事 解决 这 个 问题 
(除了 购买 有 更 多 内 存 的 GPU 外 ) : 


. 减 小 小 批 次 尺寸 。 

.在 一 层 或 多 层 中 使 用 较 大 的 步 幅 来 降低 维度 。 

:删除 一 层 或 多 层 。 

-使 用 16 位 浮 点 数 来 代 蔡 32 位 浮 点 。 

:在 多 个 设备 上 分 配 CNN。 

4. 最 大 池 化 层 完 全 没有 参数 ， 而 卷 积 层 有 一 些 (参见 之 前 的 问题 ) 。 

5. 局 部 响应 标准 化 层 使 得 神经 元 在 同一 位 置 强烈 激活 抑制 的 神经 元 ， 但 
是 在 相 邻 的 特征 图 中 ， 它 鼓励 不 同 特征 图 个 性 化 并 推动 它们 分 开 ， 迫 
使 它们 探索 更 加 广泛 的 特征 。 它 通常 用 于 低层 ， 为 了 拥有 较 大 高 层 特 
征 可 以 在 上 面 构建 的 低层 特征 池 。 

6. 相 比 于 LeNet-5，AlexNet 的 主要 创新 是 : (1) 它 更 大 、 更 深 ， (2) 
它 在 彼此 之 上 添加 卷 积 层 ， 而 不 是 在 每 个 卷 积 层 的 顶部 添加 一 个 池 化 
层 。GoogLeNet 的 主要 创新 是 引入 初始 化 模块 ， 使 得 它 比 之 前 的 CNN 框 
架 网 络 层 次 更 深 、 参 数 更 少 。 最 后 ，ResNet 的 主要 创新 是 引入 跳 过 连 
接 ， 使 得 它 可 以 在 超过 100 层 的 网 络 中 性 能 良好 。 可 以 说 ， 它 的 简单 和 
一 致 性 也 是 一 种 创新 。 


练习 7 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 14 章 : 循环 神经 网 络 
1. 这 里 有 一 些 RNN 的 应 用 : 


:序列 到 序列 RNN: 预测 天 气 (或 者 其 他 时 间 序 列 ) ， 机 器 翻译 (使 用 
编码 器 -解码 器 框架 ) ， 视 频 字 幕 ， 语 音 到 文本 ， 音 乐 生成 (或 其 他 序 


列 生 成 ， 识 别 歌曲 中 的 和 弦 。 


:序列 到 向 量 RNN: 按照 音乐 题材 分 类 音乐 样本 ， 分 析 书 评 的 观点 ， 根 
据 读 取 大 脑 植 入 物 预测 失语 病人 (collaborative filtering) 的 思维 ， 基 于 
历史 记录 预测 用 户 想 看 的 电影 (这 是 协同 过 滤 的 实现 方法 之 一 ) 。 


: 问 量 到 序列 RNN: 图 像 字幕 ， 根 据 当 前 收藏 的 音乐 创建 歌 单 ， 根 据 一 
在 图 片 中 定位 行人 (例如 ， 自 动 芍 驶 汽车 摄像 头 的 
Avil) 。 


2. 通 常 来 说 ， 如 果 一 次 翻译 一 个 单词 ， 结 果 会 很 差 。 例 如 ， 法 语句 
“Je vous en prie” 意 思 是 “不 客气 ”。 但 是 ， 如 果 一 次 只 翻译 一 个 单词 ， 
会 得 到 ”我 你 在 祈祷 >”。 奇 怪 吗 ? 最 好 读 完 整 句 话 再 进行 翻译 。 一 个 普 
通 的 序列 到 序列 RNN 会 在 读 完 第 一 个 单词 后 立即 开始 翻译 ， 而 编码 器 - 
解码 器 RNN 会 先 读 完整 个 句子 ， 然 后 再 翻译 。 也 就 是 说 ， 一 个 普通 的 
RNN， 当 它 不 确定 下 一 步 该 说 什么 时 就 会 什么 也 不 输出 (就 像 人 类 翻 
译员 在 同 声 传译 时 做 的 一 样 ) 。 


3. 为 了 根据 视觉 内 容 分 类 视频 ， 一 个 可 能 的 框架 是 每 秒 取 一 帧 图 像 ， 然 
后 通过 卷 积 神经 网 络 运 行 每 一 帧 ， 将 输出 的 CNN 传 入 一 个 序列 到 辐 量 
RNN， 然 后 通过 softmax 层 运行 输出 ， 得 到 所 有 类 的 概率 。 如 果 你 还 想 
使 用 音频 进行 分 类 ， 可 以 把 每 秒 的 音频 转换 为 频谱 ， 之 后 将 这 些 频谱 
re 然后 将 CNN 的 输出 传 给 RNN (连同 其 他 CNN 的 响应 输 


4. 使 用 dynamic_mn () 而 不 是 static_rnn () 来 构建 RNN 带 来 许多 好 
Ah: 

' 它 基于 while_ loop () 操作 ， 可 以 在 反 向 传播 期 间 将 GPU 内 存 交 互 到 
CPU 内 存 ， 从 而 避免 了 内 存 盗 出。 

: 它 更 加 易于 使 用 ， 因 为 其 采取 单 张 量 作为 输入 和 输出 Gaara ATT 
HR) ， 而 不 是 一 个 张 量 列表 (每 个 时 间 步 长 一 个 ) 。 不 需要 入 栈 、 
出 栈 ， 或 转 置 。 

它 生产 的 图 形 更 小 ， 更 容易 在 TensorBoard 中 可 视 化 。 


5. 为 了 处 理 可 变 长 度 的 输入 序列 ， 最 简单 的 方法 是 在 调用 static_ mn () 
或 dynamic_mn () 方法 时 传 入 sequence_length 参 数 。 另 一 个 方法 是 填 


充 长 度 较 小 的 输入 (比如 ， 用 0 填充 ) 来 使 其 与 最 大 输入 长 度 相同 (这 
可 能 比 第 一 种 方法 快 ， 因 为 所 有 输入 序列 具有 相同 的 长 度 ) 。 为 了 处 

理 可 变 长 度 的 输出 序列 ， 如 果 事 先知 道 每 个 输出 序列 的 长 度 ， 就 可 以 

使 用 sequence_length 参 数 〈 例 如 ， 序 列 到 序列 RNN 使 用 暴力 评分 标记 视 
频 中 的 每 一 帧 : 输出 序列 和 输入 序列 长 度 完 全 一 致 ) 。 如 果 事 先 不 知 

道 输出 序列 的 长 度 ， 则 可 以 使 用 填充 方法 : 始终 输出 相同 大 小 的 序 

71 T eee 的 任何 输出 (在 计算 成 本 函数 时 
Alt EM ° 


6. 为 了 在 多 个 GPU 直 接 分 配 训练 并 执行 深度 RNN， 一 个 常用 的 简单 技术 
征 将 每 个 层 放 在 不 同 的 GPU 上 。 


练习 7 至 练习 9 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml_ ° 


第 15 章 : 自动 编码 器 

1. 以 下 是 自动 编码 器 一 些 主要 任务 : 

.特征 提取 

.无 监督 的 预 训练 

.降低 维度 

.生成 模型 

:异常 检测 (自动 编码 器 在 重建 异常 点 时 通常 表现 得 不 太 好 ) 

2. 如 果 想 训练 一 个 分 类 器 ， 有 大 量 未 标记 的 训练 数据 ， 仅 有 几 千 个 已 标 
记 的 实例 。 那 么 首先 可 以 在 完整 的 数据 集 (已 标记 和 未 标记 ) 上 训练 
一 个 深度 自动 编码 器 ， 然 后 重用 其 下 半 部 分 作为 分 类 器 〈 即 重用 上 半 
部 分 作为 编码 层 ) 并 使 用 已 标记 的 数据 训练 分 类 器 。 如 果 已 标记 的 数 
据 集 比较 小 ， 你 可 能 希望 在 训练 分 类 器 时 冻结 复 用 层 。 

3. 事 实 上 ， 能 够 完美 重建 其 输入 的 自动 编码 器 并 不 意味 着 它 是 一 个 好 的 
Amiga; 也 许 它 仅 仅 是 一 个 可 以 复制 输入 到 编码 层 ， 再 到 输出 层 


的 完备 的 目 动 编码 器 。 事 实 上 ， 即 使 编码 层 包 含 单个 神经 元 ， 对 非常 
深 的 目 动 编码 此 来 说 ， 它 才 可 能 学 习 将 每 个 训练 实例 映射 到 不 同 的 编 


码 (比如 ， 第 一 个 实例 可 以 映射 到 0.001， 第 二 个 映射 到 0.002， 第 三 个 
映射 到 0.003， 等 等 ， 它 可 以 “用 心 ”学 习 为 每 个 编码 重 构 正确 的 训 
练 。 它 将 在 不 真正 学 习 数 据 中 任何 有 用 的 模式 的 情况 下 完美 地 重建 输 
入 。 在 实践 中 ， 这 样 的 映射 不 太 可 能 发 生 ， 但 是 它 说 明 一 个 事实 ， 完 
美的 重建 并 不 能 保证 自动 编码 器 学 习 到 有 用 的 东西 。 然 而 ， 如 果 产 生 
非常 差 的 重建 ， 它 几乎 必然 是 一 个 糟糕 的 自动 编码 器 。 为 了 评估 编码 
器 的 性 能 ， 一 种 方法 是 测量 重建 损失 〈 例 如 ， 计 算 MSE， 用 输入 的 均 
方 值 减 去 输入 ) 。 同 样 ， 重 建 损失 高 意味 着 这 是 一 个 不 好 的 编码 器 ， 
但 是 重建 损失 低 并 不 能 保证 这 是 一 个 好 的 自动 编码 器 。 你 应 该 根据 它 
的 用 途 来 评估 自动 编码 器 。 例 如 ， 如 果 它 用 于 无 监督 分 类 器 的 预 训 
练 ， 同 样 应 该 评估 分 类 器 的 性 能 。 


4. 不 完整 的 目 动 编码 器 古 编 码 层 比 输 入 和 输出 层 小 的 目 动 编码 莫 。 如 霖 
比 其 大 ， 那 就 是 一 个 完整 的 自动 编码 器 。 一 个 过 度 不 完整 的 自动 编码 
器 的 主要 风险 是 : 不 能 重建 其 输入 。 完 整 的 自动 编码 器 的 主要 风险 
me: 它 可 能 只 是 将 输入 复制 到 输出 ， 不 学 习 任何 有 用 特征 。 


5. 要 将 目 动 编码 如 的 权重 与 其 相应 的 解码 层 相 关联 ， 你 可 以 人 简单 地 使 得 
解码 权重 等 于 编码 权重 的 转 置 。 这 将 使 模型 参数 数量 减少 一 半 ， 通 毅 
使 得 训练 在 数据 较 少 时 快速 收敛， 减 小 过 度 拟 合 的 风险 。 


6. 为 了 可 视 化 栈 式 自动 编码 器 低层 学 习 到 的 特征 ， 一 个 常用 的 技术 是 通 
过 将 每 个 权重 向 量 重建 为 输入 图 像 的 大 小 来 绘制 每 个 神经 元 的 权重 
(例如 ， 对 于 MNIST， 将 权重 向 量 形状 [784] 重 建 为 [28，28]) 。 为 了 
Pe Ee 
练 实 例 。 


7. 生 成 模式 是 一 种 可 以 随机 生成 类 似 于 训练 实例 的 输出 的 模型 。 例 如 ， 
一 旦 在 MNIST 数 据 集 上 训练 成 功 ， 生 成 模型 束 可 以 用 于 随机 生成 帝 真 
的 数字 图 像 。 输 出 分 布 大致 和 训练 数据 类 似 。 例 如 ， 因 为 MNIST 包 合 
了 每 个 数字 的 多 个 独 像 ， 生 成 模型 可 以 输出 与 每 个 数字 大 致 数量 相同 
WEZ o 有些 生 成 模型 可 以 进行 参数 化 ， 例 如 ， 生 成 荣 种 类 型 的 输 
出 。 生 成 目 动 编码 右 的 一 个 例子 是 变 分 目 动 编码 髓 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml ° 


第 16 章 : 强化 学 习 


1. 强 化 学 习 是 机 器 学 习 的 一 个 领域 ， 虽 在 创建 在 一 个 环境 中 采取 行动 的 
代理 ， 以 获得 最 大 回报 。RL 和 津 规 的 有 监督 和 无 监督 学 习 有 很 大 的 不 
同 。 主 要 在 以 下 几 个 方面 : 


.有 监督 和 无 监督 学 习 的 目标 是 找到 数据 中 的 模式 。 强 化 学 习 的 目标 是 
找到 好 的 策略 。 


.与 有 监督 学 习 不 同 ， 代 理 没有 明确 给 出 正确 答案 。 它 必须 经 过 反复 斌 
验 来 学 习 。 


-与 无 监督 学 习 不 同 ， 强 化 学 习 的 代理 有 一 种 通过 回报 的 监督 形式 。 我 
Wa a 
由 o 


“强化 学 习 代 理 需 要 找到 探索 环境 、 寻 找 获得 回报 的 新 途径 和 利用 已 知 
回报 来 源 之 则 的 平衡 。 相 反 ， 有 监督 和 无 监督 学 习 无 须 担 心 探索 ; É 
们 仅 处 理 提 供给 它们 的 训练 数据 。 


.有 监督 和 无 监督 学 习 的 训练 实例 通 稼 是 独立 的 《实际 上 ， 它 们 通常 是 
无 序 的 ) 。 在 强化 学 习 中 ， 连 续 观 测 值 通常 不 是 独立 的 。 在 移动 之 
前 ， 代 理 可 能 在 环境 中 的 相同 区 域 停留 一 会 ， 所 以 连续 观测 值 将 是 相 
和 
观测 值 。 


ee 


SEAGER 


环境 是 用 户 的 私人 网 络 广播 。 代 理 是 决定 下 一 曲 播放 什么 的 软件 。 它 
可 能 的 行为 是 播放 目录 中 的 任何 歌曲 〈 必 须 演 试 选择 用 户 喜欢 的 歌 
曲 ) ， 或 者 播放 广告 (必须 选择 用 户 感 兴趣 的 广告 ) 。 每 次 当 用 户 收 
听 歌 曲 时 ， 它 会 获得 一 个 小 回报 ， 每 次 当 用 户 收 昕 广告 时 获得 一 个 大 
回报 。 当 用 户 跳 过 歌曲 或 广告 时 ， 获 得 人 负 回 报 ， 当 用 户 直 接 退 出 时 ， 
获得 一 个 非常 天 的 负 回报 。 


== hy 
营销 
Fa 


环境 是 你 们 公司 的 市 场 部 。 代 理 是 给 定 客户 的 简历 和 购买 历史 ， 决 定 
活动 邮件 应 该 发 给 哪些 客户 的 软件 〈 对 于 每 个 客户 ， 可 选 的 行为 有 两 
个 : 发 送 或 不 发 送 ) 。 其 负 回 报 是 活动 邮件 的 成 本 ， 正 回报 是 此 活动 
预计 市 来 的 收入 。 


产品 交付 


让 代理 控制 一 队 送 货 卡车 ， 决 定 应 该 从 仓库 拿 什 么 ， 送 去 哪里 ， 在 哪 
里 下 车 ， 等 等。 其 正 回报 定 每 个 产品 被 及 时 交付 ， 负 回报 是 延迟 区 


A. 
DS 


3. 评 估 行 为 的 值 时 ， 强 化 学 习 算法 通常 会 时 加 该 行为 导致 的 所 有 回报 ， 
给 即时 回报 分 配 较 多 的 权重 ， 延 迟 回 报 分 配 较 少 的 权重 (考虑 到 行为 
对 近期 的 影响 比 远 期 大 ) 。 为 了 对 此 建 模 ， 通 常 为 每 个 时 间 送 代 应 用 
一 个 折扣 率 。 例 如 ， 折 扣 率 为 0.9， 当 估计 行为 的 值 时 ， 两 个 时 间 步 长 
后 回报 为 100 仅 被 计算 为 0.9?x100=81。 可 以 将 折扣 率 想 象 为 衡量 未 来 
值 相对 于 现在 值 的 标杆 : 如果 它 趋 近 于 1， 那 么 未来 值 和 现在 值 差 不 
多 。 如 果 它 趋 近 于 0， 那 么 只 有 即时 回报 是 最 重要 的 。 当 然 ， 这 会 对 最 
ERR ERAS: 如 全 看 中 未 来 价值 ， 为 了 得 到 最 终 回 报 ， 你 可 
能 愿意 忍受 很 多 现在 的 痛苦， 如 果 不 看 中 未 来 价值 ， 你 可 能 仅仅 愿意 
获得 你 能 找到 的 任何 即时 回报 ， 而 不 关注 未 来 。 


4. 为 了 测量 强化 学 习 代理 的 性 能 ， 可 以 简单 地 素 加 它 获 得 的 回报 。 你 可 
以 在 模拟 环境 中 多 次 运行 ， 并 查看 得 到 的 平均 回报 (同时 ， 看 一 下 最 
小 、 最 大 、 标 准 偏 差 ， 等 等 ) 。 


5. 信 用 分 配 问 题 是 ， 当 一 个 强化 学 习 代 理 获得 一 个 回报 时 ， 它 无 法 直接 
知道 之 前 的 哪个 行为 页 献 了 这 些 回报 。 该 问题 通 各 发 生 在 行为 和 最 终 
回报 有 很 大 延迟 时 (例如 ，Atari 的 乒乓 球 游戏 ， 代 理 击 球 和 赢得 比赛 
之 间 可 能 有 几 十 个 时 间 步 长 ) 。 缓 解 该 问题 的 方法 之 一 是 ， 如 果 可 能 
的 话 ， 为 代理 设置 短期 问 报 。 这 通常 需要 关于 任务 的 先 验 知识 。 例 

如 ， 如 果 硕 望 构建 一 个 学 习 下 国际 象棋 的 代理 ， 那 么 我 们 应 该 在 它 每 
次 吃 了 对 手 的 棋子 时 就 给 予 回报 ， 而 不 是 最 终 顾 得 比赛 时 才 给 予 。 


6. 代 理 通 常会 在 环境 的 同一 个 区 域 里 停留 一 段 时 间 ， 所 以 这 段 时 间 的 所 
有 经 历 都 古 相 似 的 。 这 会 给 学 习 算法 引入 一 些 偏 壮 。 它 可 能 会 调整 环 
境 中 该 区 域 的 策略 ， 一 旦 离开 该 区 域 ， 性 能 就 会 变 差 。 为 了 解决 这 个 
问题 ， 可 以 使 用 重播 内 存 ， 代 理 将 基于 一 些 过 去 的 (最 近 的 和 不 那么 


近 的 ) 经 验 进 行 学 习 ， 而 不 是 仅仅 使 用 即时 经 验 《这 也 许 就 是 我 们 晚 
上 做 梦 的 原因 : 重 现 我 们 白天 的 经 验 并 更 好 地 从 中 学 习 ? ) o 


7.off-policy RL 算法 学 习 最 佳 策 略 的 值 〈 即 ， 如 果 代 理 行 为 最 佳 ， 每 个 
状态 可 以 预期 的 所 有 折扣 后 回报 之 和 ) ， 而 不 管 代 理 实际 如 何 行动 。Q 
学 习 是 该 算法 的 一 个 例子 。 相 反 地 ，on-policy 算 法 学 习 代 理 实际 执行 的 
策略 获得 的 值 ， 包 括 探索 和 开发 。 


练习 8 至 练习 10 的 解决 方案 ， 请 参见 Jupyter 笔 记 本 : 
https://github.com/ageron/handson-ml ° 


如 果 在 曲线 上 任意 两 点 之 间 画 一 条 连 拉线， 该 线 水 远 不 会 穿 过 上 


[2] 些 外， 标准 方程 需要 对 矩阵 求 逆 ， 但 是 矩阵 并 不 总 是 可 逆 的 。 相 
反 ， 上 岭 回 归 和 矩阵 永远 是 可 逆 的 。 

[3]. 当 预测 值 可 能 在 多 个 数量 级 上 变化 时 ， 则 可 能 需要 直接 预测 目标 值 
的 对 数 而 不 是 目标 值 本 身 。 简 单 地 计算 神经 网 络 输出 的 指数 可 以 得 到 
估算 值 〈 自 exp (logv) =v) ° 

[4] 在 第 11 章 中 ， 我 们 讨论 了 引入 额外 超 参 数 的 许多 技术 : 权重 初始 化 
的 类 型 ， 激 活 函 数 超 参数 〈 例 如 leaky ReLU 中 的 泄漏 量 ) ， 梯 度 剪裁 国 
值 ， 优 化 器 的 类 型 及 其 超 参 数 (例如 ，MomentumOptimizer) ， 每 层 
的 正则 化 类 型 ， 正 则 化 超 参数 (例如 ，dropout 的 丢失 率 ) 等 。 


附录 B 机 器 学 习 项 目 清单 
该 清单 可 以 帮助 你 完成 你 的 机 器 学 习 项 目 。 主 要 有 8 步 : 
1 架构 问题 ， 关 注 蓝 图 。 
2. 获 取 数 据 。 
3 .研究 数据 以 获取 灵感 。 
4 .准备 数据 以 更 好 地 将 低层 模型 暴露 给 机 器 学 习 算法 。 
5 .研究 各 种 不 同 的 模型 ， 并 列 出 最 好 的 模型 。 


6. 微 调 模型 ， 并 将 其 组 合 为 更 好 的 解决 方案 。 

7. 提 出 解决 方案 。 

8. 司 动 、 监 视 、 维 护 系 统 。 

当然 ， 为 了 满足 需求 ， 你 可 以 随时 调整 这 个 清单 。 
FRR Al, KIE 

1. 用 商业 术语 定义 目标 。 

2. 方 案 如何 使 用 ? 

3. 目 前 的 解决 方案 /办 法 是 什么 ? 

4. 应 该 如 何 染 构 问 题 《有 监督 /无 监督 ， 在 线 /离线 ， 等 等 ) ? 
5. 如 何 测量 性 能 ? 

6. 性 能 指标 是 否 与 业务 目标 一 致 ? 

7. 每 个 业务 目标 需要 的 最 低 性 能 是 什么 ? 

8. 有 没有 一 些 相似 的 问题 ? 能 重用 一 些 经 验 和 工具 吗 ? 
9. 有 没有 相关 有 经 验 的 人 ? 

10. 如 何 手动 解决 此 问题 ? 

11. 列 出 目前 为 止 你 (或 其 他 人 ) 的 假设 。 

12. 如 果 可 能 的 话 ， 验 证 假设 。 

获取 数据 

注意 : 尽 可 能 的 目 动 化 ， 以 便 获 取 最 新 数据 。 

1. 列 出 需要 的 数据 及 其 体 量 。 


2. 查 找 并 记录 获取 数据 的 途径 。 
3. 检 查 需要 的 空间 。 
4. 检 查 法 律 义务 ， 必 要 时 获取 授权 。 
5. 获 取 访 问 权 限 。 
6. 创 建 工作 空间 (确保 具有 足够 的 存储 空间 ) 。 
7. 获 取 数 据 。 
8. 将 数据 转换 为 可 操作 的 格式 (不 改变 数据 本 身 ) 。 
9. 确 保 删 除 或 保护 敏感 信息 〈 例 如 ， 匿 名 ) 。 
0. 检 查 数据 的 类 型 和 大 小 〈 时 间 序 列 、 样 本 、 地 点 等 ) 。 


aam amaa 放 在 一 边 ， 水 远 不 要 用 它 QAAE 
视 ! o 


研究 数据 
注意 : 试 着 从 这 些 步骤 的 领域 专家 那里 获取 灵感 。 
i 


2 创建 一 个 Jupyter 笔 记 本 来 记录 数据 研究 。 

3. 研 究 每 个 属性 及 其 特征 : 

:名 字 o 

类 型 (分 类 、 整 型 / 浮 点 型 、 有 界 / 无 界 、 文 本 、 结 构 等 ) 。 
.缺失 值 的 百分比 


-噪音 和 噪音 类 型 随机、 异常 、 舍 入 误差 等 ) 。 


:可 能 有 用 的 任务 ? 

分布 类 型 (高 斯 、 统 一 、 对 数 等 ) 。 

4. 对 于 有 监督 的 学 习 任 务 ， 人 确认 目标 属性 。 
5. 可 视 化 数据 。 

6. 人 研究 属性 之 则 的 相关 性 。 

7. 人 研究 如 何 手 动 解决 问题 。 


8. 确 定 布 望 使 用 转换 。 

9. 确 定 可 能 有 用 的 额外 数据 ( 回 到 之 前 的 “获取 数据 ”部 分 ) 。 
10. 记 杂 学 习 到 的 东西 。 

准备 数据 

注意 : 


-在 数据 的 副本 上 工作 (保持 原始 数据 集 不 变 ) 。 

-编写 适用 于 所 有 数据 转换 的 函数 ， 原 因 有 五 个 : 

可 以 很 容易 地 准备 下 一 次 得 到 新 数据 时 的 数据 。 

可 以 在 未 来 的 项 目 中 使 用 这 些 转换 。 

:清理 和 准备 测试 数据 集 。 

一 旦 解决 方案 失效 ， 用 来 清理 和 准备 新 数据 实例 。 
可 以 轻松 地 将 你 的 准备 选择 作为 超 参 数 。 

1. 数 据 清 理 : 

-修复 或 删除 异常 值 (可 选 ) 。 


io (例如 ， 使 用 零 、 平 均 数 、 中 位 数 等 ) 或 删除 该 行 (或 
| o 


2. 特 征 选 择 〈 可 选 ) : 

-删除 不 能 为 任务 提供 任何 有 用 信息 的 属性 。 

3. 在 适当 情况 下 ， 处 理 特征 : 

:离散 连续 特征 。 

分解 特 征 (HO, 分类、 日 期 /时 间 等 )。 

:添加 期 望 的 特征 转换 CUI, log (x) 、sqrt (x) `x?) 。 

-聚合 特征 称 为 期 望 的 新 特征 。 

列 出 期 望 的 模型 

注意 : 

.如果 数据 很 大 ， 可 能 需要 采样 为 较 小 的 训练 集 ， 以 便于 在 合理 的 时 间 
内 训练 不 同 的 模型 (注意 ， 这 会 对 诸如 大 型 神经 集 或 随机 森林 等 复杂 
模型 造成 不 利 影响 ) 。 

再 次 ， 尽 可 能 地 目 动 化 这 些 步 又 。 


1. 使 用 标准 参数 ， 从 不 同类 别 《例如 ， 线 性、 朴素 贝 叶 斯 、SVM、 随 
机 森林 、 神 经 网 络 等 ) 中 训练 需求 快速 的 不 成 熟 的 模型 。 


2. 测 量 并 比较 它们 的 性 能 。 


使 用 N 倍 交 义 验证 并 计算 N 次 折 车 的 性 能 测试 的 均值 和 
yt 7T. ° 


3. 分 析 每 个 算法 最 重要 的 变量 。 


4. 分 析 模型 产生 的 错误 类 型 。 


.人 类 用 什么 样 的 数据 避免 这 些 错误 ? 
5. 快 速 进行 特征 选择 和 处 理 。 

6. 对 前 面 五 步 进行 一 两 次 快速 迭代 。 

PIENEN ARRAROEN, MATARAE RNN 


微调 系统 
注意 
-你 将 硕 望 为 这 一 步 使 用 尽 可 能 多 的 数据 ， 符 别 是 在 微调 结束 时 。 


希 
永远 尽 可 能 地 自动 化 。 
1. 使 用 交叉 验证 微调 超 参数 。 


-把 数据 转换 选择 当 作 超 参数 ， 尤 其 是 不 确定 时 (例如 ， 应 该 用 零 或 者 
平均 值 填充 缺失 值 吗 ? 或 者 直接 删除 它 ? ) 。 


:除非 需要 人 研究 的 超 参 数值 很 少 ， 否 则 更 喜欢 在 网 格 搜 索 上 随机 搜索 。 
如 有 果 训 | 练 很 长 ， 你 可 能 更 喜欢 贝 叶 斯 优化 方法 (例如 ， 如 Jasper 
Snoek ` Hugo Larochelle 和 Ryan Adams 所 述 ， 使 用 高 斯 过 程 进行 先 验 
https://goo.g/PEFfGr) ) 。 H 


2. 笑 试 组 合 方法 。 组 合 多 个 好 模型 往往 比 单独 运行 效 末 好 。 


3. 一 旦 你 对 最 终 模 型 有 信心 ， 在 测试 集 上 测量 它 的 性 能 以 估计 泛 化 误 
差 。 
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从、 测量 泛 化 误差 后 ， 不 要 调整 模型 ， 只 需要 开始 过 度 拟 合 测试 集 。 
展示 解决 方案 
1. 文 档 化 你 所 做 的 工作 。 


2. 创 建 完美 的 演示 。 

HAAR HER ° 

3. 解 释 为 什么 你 的 解决 方案 达到 了 业务 目标 。 

4. 不 要 忘记 展示 你 发 现 的 一 些 有 趣 的 地 方 。 

-描述 什么 可 以 工作 ， 什 么 不 行 。 

列 出 你 的 假设 和 系统 的 局 限 。 

5. 确 保 你 的 关键 发 现 被 完美 展示 或 易于 记忆 的 陈述 。 

局 动 

1. 准 备 好 生产 环境 的 解决 方案 〈 插 入 生产 数据 输入 ， 写 单元 测试 等 ) 。 
2. 编 写 监控 代码 ， 定 期 检查 系统 的 性 能 ， 出 问题 时 及 时 报警 。 
-同样 需要 考虑 缓慢 退化 : 随 着 数据 的 增加 ， 模 型 往往 会 < 腐烂 ”。 
测量 性 能 可 能 需要 人 工 流 水 线 〈 例 如 ， 众 包 服 务 ) 。 


同时 监控 输入 质量 (例如 ， 发 送 随机 值 的 故障 传感器 ， 或 其 他 团队 的 
输出 过 时 ) 。 这 对 在 线 学 习 系 统 尤为 重要 。 


3. 定 期 对 新 数据 重新 建 模 〈 尽 可 能 自动 化 ) 。 


[1]_“Practical Bayesian Optimization of Machine Learning Algorithms” , 
J.Snoek ` H.Larochellef7R.Adams (2012) ° 


附录 C SVM 对 偶 问 题 


为 了 理解 二 元 性 ， 需 要 学 习 拉 格 朗 日 乘法 。 总 体 思 路 是 通过 将 约束 移 
动 到 目标 函数 中 ， 将 约束 优化 目标 转换 为 无 约束 优化 目标 。 我 们 来 看 
一 个 简单 的 例子 。 假 设 你 想 找 到 函数 f(x，y) =x“+2y 受 等 式 

3x+2y+1=0 约 束 时 ， 取 得 最 小 值 时 x 和 y 的 值 。 使 用 拉 格 表 日 乘法 ， 我 们 
首先 定义 拉 格 朗 日 函数 : g (x, y, a) =f (x, y) -a (3x+2y+1) ° JR 


A HERRA BEER (该 例子 中 只 有 一 个 ) 乘 以 一 个 被 称 为 拉 格 朗 日 
乘 子 的 新 变量 = 


约瑟夫 :路易 斯 ' 拉 格 衣 日 (Joseph-Louis Lagrange) 证 明 ， 如 果 ( x3 Y) 
是 约束 优化 问题 的 一 个 解 ， 那 么 肯定 存在 一 个 gx， 使 得 4x, 7， a) 是 一 
个 拉 格 朗 日 稳定 点 〈 稳 定点 是 所 有 偏 导 都 等 于 零 的 点 ) 。 换 句 话 说， 

我 们 可 以 计算 g (x, y, a) 对 于 x、y 和 a 的 篇 导 ; 我 们 可 以 找到 使 这 些 
ee ee en 
es ec ee) o 


es A 
当 所 有 偏 导数 都 为 0 时 ， 我 们 发 现 2* 30- ~2a=-3x-2y-1=0 ， 从 中 


可 以 很 容易 得 由 2 Fo Bo! a 这 是 唯一 的 平衡 点 ， 由 于 它 满 
足 约 来 条 作 ， 所 以 它 肯定 是 约束 优化 问题 的 解 。 


然而 ， 这 个 方法 只 应 用 于 等 式 约 束 。 幸 运 的 是 ， 在 一 些 正 则 条 件 下 
(SVM 目标 所 推 昧 ) ， 同 样 可 以 将 这 种 方法 推广 到 不 等 式 约束 ( 例 
如 ，3x+2y+1>0) 。 公 式 C-1 给 出 了 拉 格 朗 日 的 硬 边缘 问题 ， 其 中 a O 
变量 被 称 为 Karush-Kuhn-Tucker (KKT) 乘 子 ， 它 们 必须 大 于 或 者 等 于 


者。 
aS 


公式 C-1: 广义 拉 格 明日 硬 边 界 问 题 


Hea’ 20 9 (i=1,2,,m) 


与 使 用 拉 格 明日 乘法 一 样 ， 可 以 定位 偶 导 并 定位 稳定 点 。 WRA PR 
方案 ， 它 肯定 是 满足 KKT 条 件 的 平衡 点 (w,2,a) | 


pee. (CW)? x? +b) > 10 = 1,2,7), 
.验证 a 人 G s 1A a 


HA a =0， 要 么 第 个 约束 必须 是 一 个 主动 约束 ， 这 意味 着 它 必须 等 

于 : 和 ((w) “x”+5) = 1。 这 种 情况 被 称 为 互补 松弛 条 件 
(complementary slackness condition) 。 意 味 着 w ”=0 或 第 i 个 实例 在 边 

RE ( 它 是 一 个 支持 向 量 ) ° 

注意 KKT 条 件 是 稳定 点 称 为 约束 优化 解 的 必要 条 件 。 在 某 些 情况 下 ， 

它们 也 是 充分 条 件 。 和 幸运 的 是 ，SVM 优 化 问题 正好 符合 这 些 条 件 ， 所 

以 任何 满足 KKT 条 件 的 稳定 点 都 可 以 保证 是 约束 优化 问题 的 解 。 


可 以 用 公式 C-2 计 算 三 义 拉 格 表 日 对 应 w 和 b 的 仿 导 。 
公式 C-2: J” SGA BAB AY iS 


SKE SET ORT, BY te BZ x0C-3 ° 


公式 C-3: 稳定 点 属性 


at _. 0 
a t = 
t=] 
如 果 将 这 些 结果 带 入 广义 拉 格 朗 日 的 定义 中 ， 有 些 项 会 消失 ， 得 到 公 


式 C-4° 


公式 C-4: SVM 问题 的 对 偶 形 式 


ae | A Gk taitB th - (1 
AW, ba) = Ya asia" - Ya” 
=| | 


i=l j 
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Eta” 20 (i=1,2,,m) 


现在 的 目标 是 找到 使 画 数 取 值 最 小 的 向 量 2% ， 对 所 有 实例 & >0。 该 约 
束 问题 是 我 们 所 寻找 的 对 伪 问 题 。 


一 旦 找到 最 优 解 4 ， 就 可 以 使 用 公式 C-3 的 第 一 行 来 计算 W。 要 计算 。 
， 可 以 使 用 支持 向 量 验证 (W “x +) = 1 的 事实 ,如 果 第 k 个 实 
例 是 一 个 支持 向 量 (如 ak>0) ， 就 可 以 用 它 来 计算 "= 1 =/ (Ww x) 


o 然而， 通常 优先 使 用 所 有 支持 向 量 的 平均 值得 到 更 稳定 和 更 精准 的 
值 ， 如 公式 C-5 所 示 。 


ARCS: 使 用 对 侦 形式 的 偏差 估计 


-wl 1 = x”) | 
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本 附录 介绍 了 TensorFlow 的 目 动 微分 特性 如 何 工 作 ， 以 及 与 其 他 解决 方 
案 的 比较 。 

2 ä of əf 
(URE LT BBO) =xy+y+2 HEECH ox y, 3B 
常 执行 梯度 下 降 Reon ae o 你 的 主要 选择 有 手动 微分 、 符 
号 微分 、 数 值 微分 、 正 序 模式 自动 微分 (autodiff) 和 反 序 模式 自动 生 
分 。TensorFlow 实 现 了 最 后 一 个 选项 。 我 们 来 逐一 看 看 这 些 选 项 。 
手动 微分 


第 一 种 方式 征 拿 出 纸 和 笔 ， 用 微 积 分 知识 手动 推导 出 侦 导 。 对 刚刚 定 
义 的 方程 f (x，y) ， 推 出 偏 导 很 容易 。 和 需要 使 用 以 下 五 个 规则 : 


-常数 的 导数 是 0 。 

-和 x 的 导数 是 (和 是 常数 ) 。 
Xx^ 的 导数 是 入 入 ， 所 以 x* 的 导数 是 2x。 
.函数 和 的 导数 是 这 些 函 数 分 别 的 导数 的 和 。 
:函数 的 入 倍 的 导数 是 函数 导数 的 和 倍 。 


根据 上 述 规 则 ， 可 以 得 出 等 式 D-1: 
等 式 D-1: f (x, y) 的 偏 导 


) 2 

Ue sd E T 

O% dn OX oX on 
iC a ere 
dy y y y 
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符号 微分 


图 D-1 展 示 了 符号 微分 如 何在 类 似 方程 g (x, y) =5+xy 上 工作 。 该 方程 
展示 在 独 D-1 的 元 人 出 ， 通 过 符号 微分 后 ， 得 到 了 图 D-1 右 侧 所 示 的 俩 寻 


DE co 0 4 (RASH RTT BS 


ax - ” “(可 以 使 用 类 似 方 法 求 得 对 于 y 的 偏 导 ) 。 


a p 
A i G) G 
BL DAU bid Px 

/\ Mera Ct E 
x y “pylon? 一 一 一 im 
g(Xy) = 5 + xy ôglðx = 0 + (0.x +y.1) =y 


BIZ ICT RI FT RAE o BCT (5) 返回 9， 因 为 第 数 的 偏 
a 


OX 
Sj ` MA Y iin Re ] = Sj ` (=i » 
导 是 0。 变 量 x 返 回 常数 1， 因 为 如 ” ， 同 时 变量 y 返 回 常量 9， 因 为 
ay 


av =” (如 果 计 算 对 于 y 的 偏 导 ， 结 果 与 此 相反 ) 。 
现在 我 们 需要 做 的 是 把 画 数 g 中 的 乘法 节点 移动 的 图 上 。 微 积分 知识 千 


a(uxv) _ OG os, ell ae 
诉 我 们 ， 两 个 函数 u 和 v 的 乘积 的 偏 导 是 : et dx o 
此 我 们 构建 出 图 右 侧 的 大 部 分 内 容 ， 代 表 0xx+yx1。 


最 后 ， 考 虑 函数 g 中 的 加 法 万 点 。 如 前 所 述 ， 几 个 函数 之 和 的 侦 寻 坪 它 
们 各 自 偏 导 的 和 。 所 以 ， BN Ae Bae MNT, HAERE 
接 之 前 得 到 的 计算 结果 。 得 到 该 芳 数 的 正确 仿 导 : 


ag 


= =0+(0xx+y7x1) 
OX o 


然而 ， 该 过 程 可 以 被 简化 (很 多 ) 。 可 以 添加 一 些 修改 来 简化 不 必要 
8 > 
的 操作 ， 得 到 只 有 一 个 节点 的 简单 图 aa 


在 这 种 情况 下 ， 简 化 非常 容易 。 但 是 是 对 于 更 复杂 的 男 数 ， 号 微分 会 
产生 巨大 的 图 ， 可 能 会 很 难 简化 并 且 影 响 性 能 “最 重要 的 是 符号 入 
分 不 能 处 理 用 任意 代码 定义 的 函数 ， 例如 第 9 章 讨 ? CH ENB: 
def my_func(a, b): 
for i in range(100): 


z =a * np.cos(z + i) +z * np.sin(b - i) 


wa Ta) ED AEAT T° TI — BR, RE (x) 
的 导数 hh (xo) 是 函数 在 点 X0 处 的 斜率 ， 或 者 更 准确 地 表示 为 方程 D- 
2 o 


方程 D-2: 函数 h (x) 在 xu 的 导数 
h(x) = A(x), (ay + €) - h(x) 
<E p li 
4%, ee Xy 人 l) E 
PARETE (x, y) 关于 x 在 x=3，y=4 处 的 偏 导 ， 我 们 可 以 


简单 地 计算 f (3+€ ，4) -£ (3，4) ， 并 将 结果 除 以 EC , © 是 一 个 非 
常 小 的 值 。 如 下 代码 表示 了 上 述 过 程 ; 


def f(x, y): 


return x**2*y +y + 2 


def derivative(f, x, y, X_eps, y_eps): 


return (f(x + x_eps, y + y_eps) - f(x, y)) / (x_eps + y_eps) 


df_dx = derivative(f, 3, 4, 0.00001, 0) 


df_dy = derivative(f, 3, 4, ©, 0.00001) 


不 幸 的 是 ， 结 果 并 不 十 分 准确 (对 于 复杂 函数 ， 情 况 更 糟糕 ) 。 正 确 
的 结果 分 别 是 24 和 10， 但 得 到 的 结果 却 是 : 

>>> print(df_dx) 

24.000039999805264 

>>> print(df_dy) 


10.000000000331966 


注意 ， 为 了 计算 两 个 偏 导 ， 至 少 需 要 调用 函数 f () 三 次 (代码 中 调用 
了 四 次 ， 但 是 可 以 优化 ) 。 如 果 它 有 1000 个 参数 ， 则 至 少 调用 1001 
次 。 当 处 理 大 型 神经 网 络 时 ， 这 会 使 得 数字 微分 的 效率 过 低 。 

然而 ， 数 字 微 分 非常 容易 实现 ， 它 是 检查 其 他 方法 是 否 正确 实施 的 好 
7 ee 0 
肯定 有 问题 。 


正 序 模式 自动 微分 


正 序 模式 目 动 微分 既 不 是 数字 微分 也 不 是 符号 微分 ， 但 是 某 种 程度 上 
来 讲 ， 是 它们 “爱情 的 结晶 ”。 它 依赖 于 对 偶数 ， 其 形式 是 atb€ 的 数 
字 ， 其 中 a 和 b 是 实数 ，e 是 使 得 Ee =0 UBE 0) 的 无 限 小 数 。 你 可 以 


把 对 偶数 42+24€ 看 作 是 类 似 于 中 间 有 无 限 个 0 的 小 数 42.0000...000024 
(当然 ， 这 里 只 是 给 出 了 一 些 对 偶数 的 概念 ) 。 内 存 中 的 对 偶数 表示 
为 一 对 浮 点 数 。 例 如 ，42+24€ 表示 为 浮 点 数 对 (42.0, 24.0) ° 


如 方程 D-3 所 示 ， 对 偶数 可 以 进行 加 法 、 乘 法 等 运算 。 
方程 D-3: 对 侦 数 的 几 个 操作 
M(a+b€) =AatAbe 


(atb€) +(ct+d€) = (atc) +(btd) € 


(at+b€) x(c+d€) = act (ad + be) €+ (bd) € = ac + (ad + be) € 


最 重要 的 是 ， 可 以 证 明 h (a+b) =h (a) +bxh (a) © ， 所 以 在 给 定 

h (a) 和 ht (a) 的 情况 下 ， 计 算 h (a+€ ) 易如反掌 。 图 D-2 显 示 了 正 

序 模式 自动 微分 如 何 计算 f (x，y) 在 x=3 和 y=4 关 于 x 的 偏 导 。 我 们 只 

需 计算 1 (3+C ，4) ; 它 将 输出 一 个 对 偶数 ， 其 第 一 个 分 量 是 f (3， 
EEA. 


4) , PONDRE 


42 + 24e 


(3,4) = 42 
+) (3.4) = 24 
96 + 24e 6 ox 
9 ~ be +} 0 


F | 
— 4 yatbe(e?=0) 
E 存储 为 一 对 浮 点 数 (a, b)， 例 如 
对 偶数 一 ”|(42.0，24.0)， 而 不 是 42.00024 


图 D-2: 正 序 模式 自动 微分 


af 
Fy TRO 又 需要 使 用 图 ， 但 是 这 次 的 参数 为 x=3，y-4+C o 


所 以 ， 正 序 模式 微分 比 数值 微分 更 加 准确 ， 但 存在 同样 的 缺陷 ， 如 采 
函数 有 1000 个 参数 ， 需 要 1000 次 遇 历 图 求 得 所 有 微分 。 这 也 是 反 序 模 
式 目 动 微分 的 优势 ， 只 需 裔 历 图 两 次 即 可 。 


肥 序 模式 目 动 微分 


有 反 序 模式 自动 微分 是 TensorFlow 使 用 的 解决 方案 。 它 首先 正 向 衣 历 图 的 
每 一 个 方 点 ( 即 ， 从 输入 到 输出 ) 。 然 后 反 向 裔 历 第 二 次 ( 即 ， 从 输 
出 到 输入 ) ， 束 可 以 计算 出 所 有 的 侦 导 。 图 D-3 表 示 了 第 二 次 饥 历 。 第 
一 次 遍历 期 间 ， 计 算出 当 x=3 且 y=4 时 所 有 节点 的 值 。 可 以 在 节点 的 右 


(3, 4) 


下 角 看 到 这 些 值 (例如 ，xxx=9) 。 为 了 清晰 起 见 ， 节 点 被 标记 为 n 1 到 
ny。 输出 节点 是 ny: f (3, 4) =nv=42。 


gr = en, * eh, 
21x v2 4 


Oon, = an, x ann, 
=1x1=1 


(1) 
an, = dfion, x gs/gn， 


=1xn,=9 


Lays 
|X, 人 0 
MNOy= adn, + on,= 1 + 9= 10 


(1) 人 
dflex = n,x4 + n,x4 = 24 


AID-3: 反 序 模式 目 动 微分 


其 想法 是 逐渐 向 下 遍历 该 图 ， 计 算 f (x, y) 在 每 个 连续 节点 的 偏 导 。 
为 此 ， 反 序 模式 目 动 微分 严重 依赖 于 链 式 规划， 如 公式 D-4 所 示 。 


公式 D-4: 链 式 规则 


ðx on, Ox 


af 
、 ESN ta =l 
因为 ny 是 输出 节点 ， f=n 5 j 所 以 on, o 


of _ of y ami 


af af | ən 
> 一 xX 


让 我 们 来 到 n 。: 当 n 变化 时 ，f 的 取 值 会 怎样 ? ARE On T om an o 
已 知 aw ” ， 所 以 仅 需要 知道 六 。 因 为 ny 可 以 表示 为 ns me, RNE 


L -1x1=1 


any / 
现 ons , 所 以 ðn; 
af z af Ons 
现在 来 处 理 n4， 当 n 4 变化 时 ，{ 的 取 值 会 怎样 9 答案 是 内 “au “am o 
ans 


—— = m SE, 
因为 ns=n4xn2， 我 们 发 现 加 ””， 所 以 
该 过 程 一 直 持续 到 我 们 到 达 图 的 底部 。 那 时 候 ， 我 们 已 经 计算 出 f (x 


24 +“~=10 


Ff 。 
y) 在 当 x=3 和 y=4 时 所 有 的 偏 导 。 本 例 中 , a, o THR 


fe, 
高 | 


Ju 


反 序 模式 自动 微分 是 一 种 强大 且 高 效 的 技术 ， 特 别 是 当 输 入 较 多 ， 输 
出 较 少 时 ， 因 为 它 仅 需要 一 次 正 辐 和 壳 历 和 一 次 反 回 允 历 就 可 以 输出 其 
输入 对 应 的 所 有 偏 导 。 更 重要 的 是 ， 它 可 以 处 理 使 用 任意 代码 定义 的 
人 只 要 你 要 求 它 在 可 微 点 计算 
HFR 。 


L Xi, = 4 
fe) 


~ 如 果 在 TensorFlow 中 实现 一 种 新 类 型 操作 ， 并 希望 它 兼 容 自 动 微 
分 ， 则 需要 提供 一 个 函数 来 生成 子 图 以 计算 其 对 应 于 输入 的 偏 导 。 例 
如 ， 你 实现 的 函数 是 计算 输入 的 评分 : f (x) =x*。 在 这 种 情况 下 ， 你 
需要 提供 该 函数 的 导数 函数 f(x) =2x。 注 意 ， 此 函数 不 生成 数字 结 


果 ， 而 是 生成 一 个 ( 稍 后 ) 计算 结果 的 子 图 。 这 非常 有 用 ， 它 意味 着 
你 可 以 计算 梯度 的 梯度 (来 计算 二 阶 导数 ， 甚 至 高 阶 导 数 ) 。 


附 邓 E ”其 他 流行 的 ANN 淋 构 


本 附录 主要 介绍 一 些 历 史上 重要 的 神经 网 络 染 构 ， 与 多 层 感知 器 ( 见 
第 10 章 ) 、 卷 积 神经 网 络 ( 见 第 13 章 ) 、 循 环 神经 网 络 ( 见 第 14 章 ) 
或 者 自动 编码 器 ( 见 第 15 章 ) 相 比 ， 这 些 架 构 使 用 得 比较 少 。 它 们 在 
很 多 文献 中 有 提 到 ， 并 在 许多 应 用 中 使 用 ， 所 以 值得 学 习 。 此 外 ， 我 
们 将 讨论 深度 置信 网 络 (DBN) ， 直 到 21 世 纪 初 ， 它 仍 是 深度 学 习 里 
oe Ce ace 
STULIT ° 


Hopfield h 24 


Hopfield 网 络 于 1974 年 第 一 次 被 W.A.Little 提 出 ， 随 后 由 J.Hopfield 在 
1982 年 推广 开 。 它 们 是 联想 记忆 网 络 : 首先 教 它 们 一 些 模式 ， 然 后 当 
它们 遇见 新 模式 时 就 会 输出 最 接近 该 模式 的 已 学 习 模 式 。 再 被 其 他 方 
法 超过 之 前 ， 该 方法 对 特征 识别 特别 有 用 。 首 先 通 过 显示 特征 图 像 示 
例 来 训练 网 络 (每 个 二 进 制 像素 映射 到 一 个 神经 元 ， 然 后 当 显示 一 
ees ee eee ee 


它们 是 全 连接 网 〈 见 图 E-1) ; 每 个 神经 元 连接 到 其 他 神经 元 。 注 意 ， 
图 中 的 图 像 是 6x6 像 素 ， 所 以 左边 的 神经 网 络 应 该 包含 36 个 神经 元 (及 
648 个 连接 ) ， 但 古 为 了 从 觉 上 更 加 浓 晰 ， 这 里 表示 为 一 个 小 得 多 县 网 


一 


训练 算法 使 用 Hebb 规 则 工作 : 对 每 个 训练 图 像 ， 如 条 啊 应 的 像素 者 开 
司 或 关闭 ， 则 两 个 神经 元 之 间 的 权重 增加 ， 但 是 如 果 一 个 像素 开局 而 
另 一 个 关 财 ， 则 减 小 。 


要 向 网 络 显示 一 个 新 图 像 ， 需 要 激活 与 激活 像素 对 应 的 神经 元 即 可 。 
然后 ， 网 络 会 计算 每 个 神经 元 的 输出 ， 并 给 出 一 个 新 图 像 。 接 着 ， 可 
以 使 用 这 个 新 图 像 ， 并 重复 整个 过 程 。 一 段 时 间 后 ， 了 网 络 进入 一 个 新 
的 稳定 状态 。 一 般 来 说 ， 这 对 应 于 最 接近 输入 图 像 的 训练 图 像 。 


图 E-1: Hopfiled 网 络 


能 量 琴 数 与 Hopfiled 网 络 相 关联 。 在 每 个 送 代 中 ， 能 量 减 小 ， 所 以 网 络 
保证 最 终 稳定 在 低能 量 状态 。 训 练 方法 以 减 小 训练 模式 的 能 量 等 级 的 
方式 来 调整 权重 ， 所 以 网 络 稳定 在 这 些 低能 量 结构 之 一 中 。 不 幸 的 
征 ， 一 些 不 在 训练 集中 的 模式 也 以 低能 量 模式 终止 ， 所 以 网 络 有 时 候 
会 稳定 在 没有 学 到 东西 的 结构 中 。 这 被 称 为 虚假 模式 。 


Hopfiled 网 络 另 一 个 主要 缺陷 是 它 不 能 很 好 地 被 扩展 。 它 们 的 内 存 容 量 
大 约 等 于 神经 元 数量 的 14%。 例 如 ， 要 分 类 28x28 个 图 像 ， 需 要 一 个 有 
784 个 全 连接 神经 元 和 306936 个 权重 的 Hopfiled 网 络 。 该 网 络 仅 能 学 习 

110 个 不 同 特征 (784 的 14%) 。 对 如 此 小 的 内 存 来 说 ， 其 参数 量 很 多 。 


BREE SAL 


IY KK = HL ze Geoffrey Hinton#ll Terrence Sejnowski 在 1985 年 发 明 的 。 与 
Hopfiled 网 络 类 似 ， 它 们 是 全 连接 的 ANN， 但 是 基于 随机 人 神经 元 ， 这些 
神经 元 以 某 些 概率 输出 1， 其 他 输出 0， 而 不 是 使 用 一 个 确定 的 步骤 函 
数 决 定 输出 值 。 这 些 ANN 使 用 的 概率 了 画 数 基于 玻 尔 效 曼 分 布 (用 于 统 
计 力 学 ) ， 并 以 此 得 名 。 公 式 E-1 给 出 了 特定 神经 元 输出 1 的 概率 。 


公式 E-1: 第 i 个 神经 元 输出 1 的 概率 


N 

(next step) y W; is; t b, 
p(s | ja 
[ 


l 


sj 是 第 j 个 神经 元 的 状态 (031) 。 
Wi, j 是 第 i 个 神经 元 和 第 j 个 神经 元 之 间 的 权重 。 注 意 wi,，i=0。 

b; 是 第 个 神经 元 的 偏差 项 。 可 以 通过 在 神经 网 络 添加 一 个 偏差 神经 元 
来 实现 。 

:N 是 网 络 中 神经 网 络 的 数量 。 

全 是 一 个 被 称 为 网 络 温 度 的 数字 ;温度 越 高 ， 输 出 越 随 机 ( 即 ， 概 率 接 
近 509%) ° 

.0 是 逻辑 函数 。 


玻 尔 效 曼 机 里 的 神经 元 被 分 为 两 组 ， 可 见 单 元 和 隐藏 单元 〈 见 图 E- 
2) 。 所 有 的 神经 元 都 以 相同 的 随机 方式 工作 ， 但 是 可 见 单元 是 接收 输 
入 并 从 中 读 取 输出 的 单元 。 


可 见 单元 ; 隐 茂 单元 


图 E-2: BORE SAL 


由 于 其 随机 性 ， 玻 尔 效 曼 机 永远 不 会 稳定 在 一 个 固定 结构 ， 而 是 保持 
在 许多 结构 之 间 切 换 。 如 果 运 行 了 足够 长 的 时 间 ， 观 察 特定 结构 的 概 
率 将 至 少 连 接 权 重 和 偏差 项 的 函数 ， 而 不 是 原始 结构 类似 地 ， 将 一 
副 纸牌 洗 牌 足够 长 时 间 后 ， 则 这 副 牌 的 顺序 将 与 原始 状态 无 关 ) e5 
网 络 到 达 一 个 原始 结构 “ 筷 记 ”了 的 状态 ， 束 处 于 热平衡 状态 (尽管 其 
结构 仍然 在 改变 ) 。 通 过 适当 地 设置 网 络 参数 ， 使 网 络 达 到 热平衡 状 
态 ， 然 后 观察 状态 ， 就 可 以 模拟 各 种 概率 分 布 。 这 被 称 为 生成 模型 。 


训练 玻 尔 兹 曼 机 意味 着 找到 使 得 网 络 接近 训练 集合 概率 分 布 的 参数 。 

例如 ， 如 果 有 三 个 可 见 神 经 元 ， 且 训练 集 包 含 75% 的 (0，1，1) 三 元 
组 ，10% 的 (0，0，1) 三 元 组 ， 以 及 15% 的 (1，1，1) 三 元 组 ， 在 训 
练 玻 尔 兹 曼 机 后 ， 可 以 用 它 来 生成 具有 大 臻 相同 的 概率 分 布 的 随机 二 

进 制 三 元 组 。 例 如 ， 大 约 75% 的 时 间 会 输出 (0，1，1) 三 元 组 。 


这 种 生成 模式 可 以 以 各 种 方式 使 用 。 例 如 ， 如 琳 用 于 训练 图 像 ， 并 癌 
网 络 提供 不 完整 或 嘲 杂 的 图 像 ， 则 会 以 合理 的 方式 目 动 “ 修 复 ” 图 像 。 

可 以 使 用 生成 模型 进行 分 类 。 只 和 需 添 加 一 些 可 见 神经 元 来 编码 训练 图 
像 的 类 (例如 ， 当 训练 图 像 表示 5 时 ， 添 加 10 个 可 见 神经 元 ， 并 打开 第 
5 个 神经 元 ) 。 然 后 ， 当 给 出 一 个 新 图 像 时 ， 网 络 会 自动 打开 适当 的 可 


ai 表示 图 像 的 类 〈 例 如 ， 如 果 图 像 表 示 5， 则 打开 第 五 个 可 见 
伸 经 元 ) ° 


不 入 的 是 ， 没 有 有 效 的 技术 来 训练 玻 尔 效 受 机 。 然 而 ， 已 经 开发 出 相 
对 有 效 的 算法 来 训练 受 限 玻 尔 效 曼 机 (restricted Boltzmann machines, 
RBM) 


受 限 玻 尔 效 曼 机 
RBM 和 是 简化 的 玻 尔 妆 受 机 ， 其 可 见 单 元 或 隐藏 单元 之 间 没 有 连接 ， 只 


在 可 见 单 元 和 隐藏 单元 之 间 有 连接 。 例 如 ， 疼 E-3 表 示 了 一 个 有 三 个 可 
见 单 元 和 四 个 隐藏 单元 的 RBM 。 


图 E-3: 受 限 玻 尔 效 曼 机 


一 个 被 称 为 对 比 散 度 (Contrastive Divergence) 的 有 效 训练 算法 于 2005 
年 被 Miguel A.Carreira-Perpiiiin 和 Geoffrey Hinton 提 出 ( 
http://go0.s/ZCP6Ir) ° [以 下 是 它 的 工作 原理 :对 每 个 训练 实例 x， 
算法 首先 将 其 可 见 单 元 的 状态 设置 为 x ，x，，.…，xn， 然 后 将 其 传递 
到 网 络 。 之 后 通过 应 用 随机 方程 (见方 程 E-1) 来 计算 隐藏 单元 状态 。 
得 到 隐藏 向 量 h (h ;等 于 第 i 个 单元 的 状态 ) 。 接 下 来 通过 相同 的 随机 方 
程 计算 可 见 单 元 的 状态 。 得 出 向 量 X。 然 后 再 一 次 计算 隐藏 层 的 状 
得 出 向 量 h 。 现 在 ， 可 以 通过 方程 E-2 中 的 规则 更 新 每 个 连接 权 


方程 E-2: 对 比 散 度 权重 更 新 


wi step) = w; 4 n( xh. E xh’) 


该 算法 最 大 的 好 处 是 不 需要 等 符 网 络 到 达 热 平衡 : 它 只 前 进 ， 后 退 ， 
再 前 进 。 这 使 得 它 比 之 前 的 算法 更 加 高 效 ， 它 是 基于 多 个 栈 式 RBM 的 
深度 学 习 第 一 次 成 功 的 关键 因素 。 


深度 置信 网 


RBM ZJZ ESE; 第 一 层 RBM 的 隐藏 单元 可 以 是 第 二 层 RBM 的 可 
见 单元 ， 等 等 。 这 种 RBM 堆 县 被 称 为 深度 置信 网 (Deep Belief Nets, 
DBN) 。 


Geoffrey Hinton 的 学 生 Yee-Whye Teh 发 现 使 用 对 比 散 度 可 以 一 次 训练 一 
层 DBN， 从 低层 开始 ， 逐 渐 移 动 到 顶层 。 该 发 现 导 致 了 引发 机 器 学 习 
海啸 的 突破 性 文章 于 2006 年 发 表 (http:/goo.gVBcZQIH) ° 2 


与 RBM 相 似 ，DBN 学 会 在 没有 任何 监督 的 情况 下 ， 重 现 其 输入 的 分 布 
概率 。 然 而 ，DBN 性 能 更 好 ， 原 因 同 样 是 深度 神经 网 络 比 浅 的 更 强 
大 : 真实 世界 中 的 数据 通常 是 以 层次 模式 组 织 的 ，DBN 利 用 了 这 一 
. o 它们 的 低层 学 习 输 入 数据 中 的 低层 特征 ， 同 时 高 层 学 习 高 层 特 
vile 


与 RBM 类 似 ，DBN 基 本 上 是 无 监督 的 ,但 是 仍然 可 以 通过 添加 一 些 可 

见 单元 代表 标签 来 以 有 监督 的 方式 训练 它们 。 此 外 ，DBN 的 一 个 重要 

Wd O se 式 进行 训练 。 图 E-4 表 示 了 为 半 监 督学 习 
JDBN ° 
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图 E-4: 为 半 监 督 配 置 的 深度 置信 网络 


首先 ，RBM 1 在 无 监督 的 情况 下 被 训练 。 它 学 习 训 练 数据 中 的 低层 特 
征 。 然 后 RBM 2 使 用 RBM 1 的 隐 沁 单元 作为 输入 进行 训练 ， 还 是 无 监 
督 的 ， 它 学 习 高 层 特征 (注意 ，RBM 2 的 隐藏 单元 仅 包括 最 右边 的 三 
个 单元 ， 没 有 标记 单元 ) 。 还 有 几 个 RBM 以 这 种 方式 被 堆 车 ， 你 已 经 
知道 方法 ， 此 处 不 再 痪 述 。 到 目前 为 止 ， 训 练 是 100% 无 监督 的 。 


最 后 ，RBM 3 使 用 RBM 2 的 隐藏 单元 作为 输入 ， 可 见 单元 表示 目标 标 
Z (PEO, FT RSE PIR) 。 它 学 习 使 用 训练 标签 关联 高 层 特 
征 。 该 步骤 是 有 监督 的 。 


在 训练 结束 时 ， 如 有 果 将 RBM 1 传 到 一 个 新 实例 ， 信 和 号 将 传播 到 RBM 
2， 然 后 到 顶层 的 RBM 3， 最 后 回 到 标 铭 单元 ;如 琳 顺 利 的 话 ， 适 当 的 
标 等 会 被 点 有 党 。 这 是 如 何 将 DBN 用 于 分 类 的 例子 。 


这 种 半 监 督 方式 的 很 大 好 处 是 不 需要 太 多 标记 的 训练 数据 。 如 有 果 无 监 
督 的 RBM 做 得 足够 好 ， 那 么 每 个 类 只 需要 少量 标记 的 训练 数据 。 类 似 
地 ， 婴 儿 在 无 监督 情况 下 学 习 识别 物体 ， 所 以 当 你 指 着 椅子 说 “ 椅 


子 ? 时 ， 婴 儿 可 以 把 “椅子 ”这 个 词 和 他 已 经 学 会 识别 的 物体 联系 起 来 。 
你 不 需要 指 着 每 个 椅子 说 它 是 “椅子 ”， 只 和 需要 儿 个 例子 束 够 了 (只 
安 儿 可 以 确定 你 指 的 十 椅子 ， 而 不 是 椅子 的 闫 色 或 椅子 的 一 部 分 ) 。 


令 人 惊讶 的 是 ，DBN 也 可 以 反 向 工作 。 如 果 激 活 其 中 一 个 标签 单元 ， 

信号 将 传播 到 RBM 3 的 隐藏 单元 ， 然 后 到 RBM 2， 最 后 天 RBM 1， 并 
ARBM 1 的 可 见 单 元 会 输出 一 个 新 实例 。 该 新 实例 通常 看 起 来 和 激活 
的 标签 单元 类 似 。DBN 的 这 种 生成 能 力 是 十 分 强大 的 。 例 如 ， 它 已 经 
被 用 于 自动 生成 图 像 字幕 ， 反 之 亦 然 : 首先 ，DBN 被 训练 (无 监督 ) 

来 学 习 图 像 特征 ， 另 一 个 DBN 被 训练 来 学 习 字 幕 中 的 特征 〈 例 

如 , “car" 通 常 和 “automobile”" 一 起 出 现 ) 。 然 后 ， 一 个 RBM 扒 二 在 两 个 
DBN 的 顶部 ， 并 用 一 组 图 像 及 其 字幕 进行 训练 ， 它 学 习 将 图 像 中 的 高 
层 特征 与 字幕 中 的 高 层 特征 相关 联 。 接 下 来 ， 如 果 传 给 图 像 DNB 一 个 
汽车 图 像 ， 信 号 将 通过 网 络 传播 ， 直 到 最 高 的 RBM， 并 返回 底部 的 字 
幕 DBN， 产 生字 幕 。 由 于 RBM 和 DBN 的 随机 性 ， 字 幕 会 随机 变化 ， 但 
一 般 都 适合 于 图 像 。 如 果 生 成 数 百 个 字幕 ， 那 么 生成 最 频繁 的 字幕 可 
能 是 图 像 较 好 的 描述 。 |!) 


目 组 织 映射 


自 组 织 映射 (SOM) 与 迄今 为 止 我 们 所 讨论 的 所 有 其 他 类 型 的 神经 网 
络 都 有 很 大 不 同 。 它 们 用 于 生产 高 维 数 据 集 的 低 维 表示 ， 通 常用 于 可 
视 化 、 育 类 或 分 类 。 如 图 E-5 所 示 ， 神 经 元 分 布 在 一 张 二 维 图 上 GAK 
二 维 用 于 可 视 化 ， 但 可 以 是 任意 数量 的 维度 ) ， 并 且 每 个 神经 元 对 每 
个 输入 都 有 一 个 加 权 连 接 〈 注 意图 中 只 显示 两 个 输入 ， 但 通常 输入 数 
量 很 大 ， 因 为 SOM 的 所 有 点 都 用 于 降低 维度 ) 。 


图 E-5: HERIR 


一 旦 网 络 被 训练 ， 可 以 传 给 它 一 个 新 实例 ， 这 将 只 激活 一 个 神经 元 
( 即 ， 图 上 的 一 个 点 ) : 其 权重 向 量 最 接近 输入 的 神经 元 。 一 般 情 况 
下 ， 原 始 输入 空间 附近 的 实例 将 激活 图 附近 的 神经 元 。 这 使 得 SOM 可 
以 用 于 可 视 化 〈 特 别 是 ， 可 以 轻松 识别 图 上 的 集群 ) ， 还 可 以 用 于 语 
音 识 别 等 应 用 。 例 如 ， 如 果 每 个 实例 表示 人 类 发 音 的 音频 记录 ， 则 元 
首 “a” 的 不 同 发 音 将 激活 图 中 相同 区 域 的 神经 元 ， 而 元 首 “e” 的 发 首 将 浅 
活 男 一 区 域 的 神经 元 ， 中 间 声 首 通 芝 激 活 图 中 间 的 神经 元 。 


` 与 第 8 章 讨论 的 其 他 降 维 技术 不 同 ， 它 的 所 有 实例 都 映射 到 低 维 空 
间 中 离散 的 点 (每 个 神经 元 一 个 点 ) 。 当 神经 元 很 少时 ， 该 技术 更 应 
该 称 为 聚 类 而 不 是 降 维 。 


训练 算法 古 无 监督 的 。 它 通过 使 所 有 人 神经 元 相互 苋 争 而 起 作用 。 首 

先 ， 所 有 权重 说 随 机 初始 化 。 然 后 随机 挑选 一 个 训练 实例 ， 并 传 到 网 
络 。 所 有 神经 元 计算 它们 的 权重 和 输入 向 量 权 重 之 间 的 距离 (这 与 我 
们 运 今 为 止 看 到 的 人 造 神 经 元 非常 不 同 ) 。 与 其 距离 最 小 的 神经 元 胜 
出 ， 并 调整 其 权重 同 量 使 其 更 接近 输入 回 量 ， 使 其 能 够 属 得 未 来 类 似 
于 该 输入 的 其 他 输入 。 它 也 拉拢 其 他 相 邻 神经 元 ， 更 新 它们 的 权重 向 
量 使 其 稍微 接近 输入 向 量 (但 是 不 会 像 胜 者 那样 更 新 它们 的 权重 ) 。 


然后 算法 选择 另 一 个 训练 实例 ， 并 不 断 重复 该 过 程 。 该 算法 倾向 使 附 
近 神经 元 逐渐 具有 相 类 的 似 输入 。 匆 
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[4]. 想 象 一 个 技能 大 致 相同 的 幼儿 班 。 一 个 孩子 在 篮球 上 好 一 点 。 这 促 

使 她 会 去 做 更 多 的 练习 3， 无 其 是 和 她 的 朋友 一 起 练习 。 一 段 时 间 以 

后 ， 这 群 小 朋友 都 变 得 擅长 篮球 ， 远 胜 于 其 他 小 朋友 。 但 是 没 基 系 ， 

。 这样 ， 一 段 时 间 后 ， 这 个 班级 残 充 满 了 各 
ae 小 组 。 
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封面 介绍 


本 书 封面 上 动物 是 中 东 地 区 发 现 的 一 种 两 栖 动 物 ， 远 东 火 晰 蚁 
(Salamandra infraimmaculata) 。 它 们 有 黑色 的 皮肤 ， 背 部 和 头 部 有 很 


大 的 黄色 斑点 。 这 个 斑点 是 防止 捕食 者 的 警告 色 。 晰 蝎 的 长 度 可 达 一 
英尺 ( 约 30.48 厘 米 ) 。 

远东 火 蜥 蝎 生 活 在 亚热带 灌木 林地 和 靠近 河流 或 其 他 淡水 资源 的 森林 
中 。 它 们 大 部 分 时 间 都 在 陆地 上 ， 但 是 会 把 它们 的 蛋 产 在 水 里 。 它 们 
主要 以 昆虫 、 蠕 虫 和 小 型 甲壳 动物 为 食 ， 偶 尔 也 吃 其 他 蜥 蝎 。 已 知 此 
物种 雄性 平均 寿命 长 达 23 年 ， 肉 性 达 21 年 。 

尽管 尚未 濒临 灭绝 ， 但 远东 火 蜥 蝎 的 数量 在 不 断 下 降 。 其 生存 的 主要 
威胁 包括 阻塞 河流 (扰乱 蜥 蝎 的 繁殖 ) 和 污染 。 它 们 也 受到 最 近 引 入 
的 掠 食性 鱼 类 的 威胁 ， 如 食 蚊 鱼 。 引 入 这 种 鱼 的 目的 是 控制 蚊子 的 数 
量 ， 但 是 它们 也 吃 蜥 蝎 幼 忠 。 


OReilly 封 面 上 的 许多 动物 都 受到 威胁 ;， 所 有 这 些 动物 对 世界 都 很 重 
要 。 想 了 解 更 多 如 何 帮助 它们 的 方法 ， 请 访问 .animals.oreilly.com 。 


该 封面 图 片 来 自 Wood’s Illustrated Natural History ° 
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